Legea lui Benford


Legea lui Benford previzionează distribuția primei cifre (sau primelor cifre) a numerelor dintr-o serie de date din natură.

În varianta pentru o cifră, probabilitatea ca prima cifră să fie D este \( \log_{10}\left(1+\frac{1}{D}\right)\).

În varianta pentru două cifre, probabilitatea ca primele două cifre să fie DE este \(\log_{10}\left(1+\frac{1}{\overline{D}}\right)\).

Combinând cele două distribuții de mai sus, probabilitatea ca a doua cifră să fie E este \(\log!\left(1+\frac{1}{1\cdot10+E}\right) +\log!\left(1+\frac{1}{2\cdot10+E}\right) +\log!\left(1+\frac{1}{3\cdot10+E}\right) +\log!\left(1+\frac{1}{4\cdot10+E}\right) +\log!\left(1+\frac{1}{5\cdot10+E}\right) +\log!\left(1+\frac{1}{6\cdot10+E}\right) +\log!\left(1+\frac{1}{7\cdot10+E}\right) +\log!\left(1+\frac{1}{8\cdot10+E}\right) +\log!\left(1+\frac{1}{9\cdot10+E}\right) \)

Conformitatea distribuțiilor empirice (Observed) cu cele previzionate (Expected) se poate verifica cu unul din testele de mai jos.

Testul χ² necesită calcularea

  1. frecvențelor absolute empirice (O) și previzionate (E) pentru toate cele nouă opțiuni ale primei cifre (sau zece pentru a doua cifră, sau 90 pentru primele două cifre)
  2. diferențelor normalizate, (O−E)²/E, pentru fiecare opțiune
  3. statisticii χ², ca sumă a termenilor de la punctul precedent.

Statistica se va aprecia în raport cu un nivel de semnificație α (frecvent, 0,05). Dacă statistica χ² din eșantion este mai mare decât valoarea critică χ²critic (calculabil în Excel cu CHI.INV(α, N−1), unde N este numărul de observații), distribuția observată este semnificativ diferită de cea așteptată, adică seria de date nu respectă distribuția Benford la nivelul testat (primă cifră, primele două cifre etc).

Testul Kolmogorov–Smirnov necesită calcularea

  1. frecvențelor absolute empirice (O) și așteptate (E), pentru toate opțiunile ca mai sus
  2. frecvențelor absolute cumulative ascendente, și pentru valorile observate (CAO), și pentru cele previzionate (CAE)
  3. diferențelor în valoare absolută, abs(CAO−CAE), pentru toate opțiunile
  4. statisticii KS, care este max(abs(CAO−CAE)).

Dacă statistica KS depășește valoarea critică, 1,3581/√N, distribuția observată este semnificativ diferită de cea așteptată. Teoretic, valoarea 1,3581 este funcție și de nivelul de semnificație, și numărul de observații N la altul. În realitate, pentru α=0,05, valoarea critică a KS este practic constantă 1,3581 pentru N mare.

Testul Kuiper V necesită

  1. frecvențelor relative observate (o) și previzionate (e), pentru toate opțiunile
  2. frecvențelor relative cumulative ascendente, și pentru seria de distribuție empirică (CRO), și pentru cea previzionată (CRE), pentru fiecare opțiune
  3. diferențelor CRO-CRE pentru fiecare opțiune
  4. celor mai mari diferențe, în valoarea absolută, separat dintre diferențele pozitive (difmax) și dintre diferențele negative (difmin)
  5. statisticii Kuiper V, suma valorilor absolute ale celor două diferențe maxime, difmax+difmin
  6. statisticii corectate Kuiper V corectat, adică V × (√N + 0,155 + 0,24/√N).

Dacă statistica Kuiper V corectată depășește valoarea critică, distribuția observată este semnificativ diferită de cea așteptată. Pentru N mare și un nivel de semnificație α=0,05, valoarea critică este 1,32.