Pensa come uno statistico – senza la matematica

Riprendo (e traduco) da FlowingData un post comparso lo scorso 4 marzo 2010. Mi sembra un punto di vista interessante, in un momento storico in cui in Italia ci si appresta a chiudere le facoltà di statistica.

Mi definisco statistico perché, beh, sono laureato in statistica. Eppure, se mi fate domande specifiche sul test delle ipotesi o sulla dimensione campionaria, probabilmente la mia risposta non sarà del tutto corretta.

L’altro giorno stavo cercando di ricordarmi quando fosse stata l’ultima volta che ho fatto il test di un’ipotesi o condotto un’analisi formale. Non ci sono riuscito. Sono dovuto andare a scovare vecchi appunti dei tempi dell’università. È stato 4 anni fa, durante l’ultimo anno di corso. Ero bravo all’università, e sono sicuro che mi basterebbe una bella rinfrescata per essere in grado di farlo di nuovo. Ma non è la risposta che cercavo. La verità è che non sono cose che faccio abitualmente.

Invece, le cose veramente importanti che ho imparato non sono quelle formali, ma altre, che si sono dimostrate estremamente utili quando lavoro o gioco con i dati. Eccole, un po’ alla rinfusa.

Attenzione ai dettagli

Spesso sono le piccole cose a risultare le più importanti. Un giorno il professore ci proiettò un grafico: era una nuvola di punti con una curva di regressione. Ci chiese che cosa vedevamo. Beh, cresceva all’inizio, diventava pressoché orizzontale nel mezzo, e poi saliva ancora. Quello che non avevo notato era un punto dove la curva iniziava a crescere. Era quello che avremmo dovuto notare.

La lezione era che le tendenze e le configurazioni generali sono importanti, ma lo sono anche gli outlier, i dati mancanti e le incongruenze.

Il quadro generale

Nonostante quello che ho appena detto, è importante non farsi prendere troppo da singoli punti o da una piccola parte di un dataset veramente grande. L’abbiamo visto di recente a proposito di recessione e ripresa. Come qualcuno ha notato, se si fa un passo indietro e si prende in considerazione un arco di tempo più lungo, il contrasto tra l’era di Bush e quella di Obama non è poi così impressionante.

Senza programmi predefiniti

Non dovrebbe essere nemmeno necessario dirlo: avvicinatevi ai dati il più oggettivamente possibile.Non sto dicendo che non dovete avere idea di che cosa state cercando, ma non permettete ai vostri preconcetti di influenzare i risultati. Perché se cercate abbastanza a lungo una certa configurazione, probabilmente finirete per trovarla. Sì, ma a scapito di risultati più accurati.

Guarda all’esterno dei dati

Contesto, contesto, contesto. A volte ve lo forniscono i metadati. A volte altri dati.

Più cose sapete sul modo in cui i dati sono stati raccolti, da dove vengono, a quando si riferiscono, che cosa d’altro stava succedendo in quel periodo, più i vostri risultati saranno ricchi d’informazione e più fiducia potrete riporre nelle vostre scoperte.

Chiedetevi perché

Infine – e questa è la cosa più importante che ho imparato – chiedetevi sempre perché. Quando vedete un’anomalia in un grafico, dovreste chiedervi perché c’è. Se trovate qualche correlazione, chiedetevi se ha senso o no. Se ce l’ha, bene, ma se non ce l’ha bisogna scavare più a fondo. I numeri sono una gran cosa, ma ricordatevi che – quando ci sono di mezzo le persone – gli errori sono sempre possibili.

Lascia un commento

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.