I block-notes: La statistica non sempre segue la moda

Share on facebook
Share on twitter
Share on linkedin

Per analizzare un insieme di dati, la statistica ricorre ai cosiddetti “indici di posizione” o “misure di tendenza centrali” che consentono di sintetizzare i dati che si hanno a disposizione individuando un loro “centro”. I tre indici usati per la rappresentazione sintetica di un fenomeno, con l’obiettivo di fornirne un’idea diretta e veloce, senza perdere troppe informazioni, sono media, mediana e moda.

Questioni di medie

La media è l’indice di posizione più usato e ne esistono varie definizioni. Tutti noi sappiamo calcolare la media aritmetica di determinati valori – quella che comunemente chiamiamo media – calcolando la loro somma e dividendola per il numero dei valori considerati. Se i dati sono x1 , x2, …, xN, allora la loro media aritmetica è M=(x1 +x2+…+xN)/N. Per esempio, per il campione {1,67; 1,85; 1,72; 1,76} delle altezze in metri di N=4 individui maschi tra i 20 e i 30 anni porta all’altezza media di M=1,78. La media geometrica è definita come la radice N-esima del prodotto dei dati: MG=(x1 ·x2·…·xN)1/N. Questa media trova impiego con valori che hanno un carattere moltiplicativo e il cui totale è appunto costituito da un prodotto (e non da una somma). Per esempio, se un capitale di 100 euro è stato impiegato per un anno al tasso del 2%, per l’anno successivo al 3% e infine per un altro anno al 4%, dopo il primo anno avremo maturato l’interesse di 2/100×100 euro; dopo il secondo 3/100×102 euro e così via per il terzo, con una struttura moltiplicativa. Per il campione {0,02; 0,03; 0,04} il tasso medio di investimento è MG=0,0288. La media armonica è definita come il reciproco della media aritmetica dei reciproci: MA=N/(1/x1 +1/x2+…+1/xN). È utilizzata quando si è interessati al calcolo del reciproco di una certa grandezza. Per esempio, siano {0,95; 1,12; 1,05; 1,10; 0,97} i co[1]sti in euro di un litro di latte in cinque città italiane. Il potere di acquisto, che è la quantità di bene acquistabile con 1 euro, è dato dal reciproco del prezzo del latte. La media armonica MA=1,03 fornisce in questo caso il potere di acquisto medio.

 

Un’unica media

Una definizione unitaria di media è stata fornita dal matematico Oscar Chisini (1889-1967): dato l’insieme di dati {x1 , x2, …, xN} e data una funzione f di N variabili, si definisce loro media rispetto a f quell’unico numero M, se esiste, tale che f(x1 , x2, …, xN)= f(M,M,…,M). In altre parole, sostituendo M a tutte le variabili, il valore della funzione f rimane uguale. Le tre medie prima descritte allora non sono altro che casi particolari: si ottiene la media aritmetica considerando come funzione f la somma divisa per il numero dei dati; si ottiene quella geometrica considerando come funzione f la radice N-esima del prodotto delle variabili ecc.

Mediana e moda

Consideriamo nuovamente il campione di dati x1 , x2, …, xN, questa volta con la condizione che sia possibile ordinarli e che risulti x1 ≤x2≤…≤xN. La mediana è il valore che occupa la posizione centrale, se il numero dei termini è dispari, e invece la media aritmetica dei due valori centrali se il numero dei termini è pari. La mediana divide i dati in due parti di uguale numerosità ed è caratterizzata dalla robustezza, cioè non è influenzata dalla presenza di dati estremi. Ad esempio, la mediana dei valori {1; 3; 5; 1000; 1001} è 5 e tale rimarrebbe anche se i dati alla sua sinistra o alla sua destra fossero molto più piccoli o molto maggiori. La moda è quel valore del campione che si ripete con maggiore frequenza – come la moda appunto! – e individua quel valore che ha maggior probabilità di presentarsi. Può pertanto essere usata anche per caratteristiche non necessariamente individuate da un numero. Ad esempio, nell’insieme {rosso; bianco; giallo; rosso; giallo; giallo} dei colori di un certo stock di magliette, la moda è il colore giallo.

 

Quale scegliere?

A priori non si può dire se tra gli indici esaminati ce ne sia uno migliore degli altri. La pratica più idonea consiste nel calcolarli tutti per poi confrontarli e dal confronto trarre le opportune indicazioni. La media aritmetica è il valore centrale più informativo. La mediana gode invece della proprietà di robustezza e risulta particolarmente utile quando abbiamo il sospetto che alcuni dati “molto grandi” o “molto piccoli” siano anomali o frutto di errori di rilevazione. Consideriamo i redditi annui di 20 persone. Se questi han[1]no tutti una occupazione simile (impiegati, insegnanti ecc.), allora media e mediana potranno essere valori diversi ma forniranno un dato qualitativamente coerente. Se, invece, tra i 20 individui anche solo tre avessero un reddito molto maggiore (ad esempio: un imprenditore, un dirigente, un calciatore di serie A), allora la media fornirebbe un valore poco indicativo, mentre la mediana sarebbe più coerente a rappresentare la situazione reddituale del Paese. Dipende insomma dall’insieme dei dati: se fossimo dei commercianti e conoscessimo le quantità di prodotti vendute, saremmo poco interessati a media o mediana del venduto e invece saremmo interessati a individuare la moda, cioè il prodotto più venduto, per organizzare al meglio il nostro magazzino.