Benford e l’impronta del numero 1

Share on facebook
Share on twitter
Share on linkedin

Provate a riportare su un foglio elettronico i numeri contenuti nella prima pagina di un quotidiano oppure la quotazione dei dati della borsa di Milano di oggi o, ancora, i numeri contenuti nella vostra ultima dichiarazione dei redditi oppure, infine, le dimensioni dei file raccolti nel vostro PC. Insomma, un insieme qualsiasi di numeri. A questo punto, probabilmente vi aspettereste che la prima cifra dei numeri di questo insieme eterogeneo che avete riportato sul vostro foglio elettronico assuma i valori da uno a nove con le stesse frequenze. Più precisamente, lasciando perdere gli eventuali zeri iniziali, probabilmente vi aspettereste che la frequenza con cui la prima cifra coincide con 1 sia 1/9, che la frequenza con cui la prima cifra coincide con 2 sia sempre 1/9 e così via. Invece no. Le frequenze con cui compaiono l’1, il 2, il 3 e le altre cifre diverse da 0 in prima posizione (tecnicamente: la prima cifra significativa) nei vostri numeri sono diverse. Verosimilmente, la cifra 1 comparirà con una frequenza attorno al 30%, la cifra 2 attorno al 17% e così via, decrescendo, fino alla cifra 9 che comparirà solo il 5% delle volte.

Il primo a segnalare questo fenomeno fu il matematico e astronomo statunitense Simon Newcomb, in un articolo del 1881, nel quale osservò che il libro delle tavole dei logaritmi (strumento di calcolo allora indispensabile) era sgualcito in modo non uniforme: le prime pagine (corrispondenti alle cifre più basse) si presentavano più usurate rispetto alle ultime, segno evidente di un loro maggior utilizzo. Newcomb propose una prima spiegazione del fenomeno. Era ancora lacunosa ma le sue osservazioni comunque lo portarono a identificare la corretta distribuzione della prima cifra significativa in un generico elenco di numeri. L’osservazione di Newcomb cadde nel dimenticatoio fino al 1938, anno in cui fu ripresa da un altro studioso statunitense, il fisico e ingegnere Frank Benford, autore di un curioso esperimento. Benford esaminò le cifre più significative dei numeri raccolti da 20 insiemi eterogenei di dati quali lunghezze di fiumi, tavole di radici quadrate di numeri interi, pesi atomici, numeri civici di alcuni indirizzi e così via. Le frequenze delle prime cifre significative confermavano in modo sorprendente la legge già osservata da Newcomb. Da allora, la distribuzione della prima cifra significativa è conosciuta come legge di Benford, dal nome quindi non dello scopritore ma di chi ne aveva diffuso la conoscenza comprendendone anche la pervasività nella realtà naturale e sociale. Formalmente, la legge di Benford stabilisce che la probabilità che la prima cifra significativa di un numero sia la cifra C è uguale al logaritmo in base 10 del numero 1+1/C.

 

Soprattutto negli ultimi tempi, la legge di Benford è stata al centro dell’attenzione di molti ricercatori, probabilisti e studiosi dell’analisi statistica dei dati. Ma è possibile che la maggior parte dei numeri, contenuti in un qualsiasi elenco, cominci con un 1? Ma i numeri non erano tutti uguali? Cosa ha questa cifra “1”, di speciale? Domande sicuramente interessanti ma ancora più sorprendenti sono le applicazioni della legge di Benford, ben al di là della semplice curiosità matematica o di una ricerca teorica che appassiona magari solo pochi studiosi.

Si parla – tanto per capirci – di evasioni fiscali, di frodi, di brogli elettorali!

Si tratta di applicazioni in ambiti socio-economici anche molto diversi tra loro, ma il ragionamento sottostante è in fondo unico. Riguarda il meccanismo che porta a generare insiemi di numeri che soddisfano la legge di Benford: se si considerano distribuzioni di probabilità prese a caso e successivamente si prendono campioni casuali da ognuna di queste distribuzioni, allora frequenze significative di questi campioni convergeranno alla distribuzione di Benford. Per capirci, consideriamo la dichiarazione dei redditi delle persone fisiche e in particolare il modello 730. Le voci presenti in questo modello – ad esempio il reddito dominicale, i redditi di lavoro dipendente e assimilati, le spese sanitarie – possono essere considerate come variabili casuali, caratterizzate da distribuzioni di probabilità scelte a caso; anche i numeri assegnati a queste voci possono essere considerati come presi sostanzialmente in modo casuale. Pertanto, il loro insieme (generato secondo il modello prima descritto) dovrà sostanzialmente soddisfare la legge di Benford. Ma se un dichiarante tentasse l’evasione fiscale alterando alcuni importi, allora il meccanismo potrebbe perdere la sua caratterizzazione di forte casualità. Perdendosi questa caratterizzazione, l’insieme di numeri considerato non verificherebbe più la legge di Benford. Sarebbe un indizio, certo non una prova sicura, che potrebbe insospettire gli uffici delegati alla verifica della veridicità delle dichiarazioni fiscali e suggerire indagini più approfondite. Non si tratta di fantasie. Dicevamo prima di frodi commerciali e contabili. Negli anni ‘90 del secolo scorso, un funzionario della tesoreria dello Stato dell’Arizona (Usa) distrasse alla pubblica amministrazione circa 2 milioni di dollari. Il funzionario trasferì sul proprio conto bancario questo importo inscenando falsi pagamenti a favore di una società di servizi informatici, rivelatasi poi inesistente. L’analisi della prima cifra significativa degli importi di questi falsi pagamenti mostrò un evidente scostamento dalla legge di Benford e questo suggerì che i pagamenti fossero stati artefatti dal funzionario, piuttosto che generati da casuali prestazioni da parte della società di servizi informatici. Per il funzionario disonesto le cose si misero subito abbastanza male. Un secondo caso, relativo ai brogli elettorali, si rifà al primo turno delle elezioni del 2009 del presidente dell’Iran. L’importanza geopolitica di quelle elezioni era evidente e quindi lo era anche la loro regolarità. Ma l’analisi della prima cifra significativa dei numeri derivanti dai voti ottenuti da ogni candidato nelle varie circoscrizioni elettorali, così come venivano comunicati ufficialmente, pose in evidenza delle anomalie a favore di uno dei candidati. Di nuovo, ci si discostava dalla legge di Benford. Una prima versione di questa analisi critica dei risultati ufficiali delle elezioni iraniane – che portarono alla conferma di Ahmadinejad alla presidenza della repubblica – iniziò a circolare in internet già pochi giorni dopo la conclusione delle votazioni e le anomalie furono successivamente confermate da altre analisi condotte con diversi approcci. Frodi commerciali, brogli elettorali… la morale è semplice: attenzione, se volete alterare dei dati, ricordatevi sempre di seguire la ricetta di Benford e mettere più “1” all’inizio dei numeri che vi stanno a cuore!