Correlazione non implica causalità

Vi trovate a una cena molto importante per il vostro futuro professionale.
Volete fare una bella figura, mostrarvi brillanti ma equilibrati.

Purtroppo, tra i partecipanti a questa cena vi è un componente che vi sta particolarmente antipatico.
Le idee che espone proprio non riescono ad andarvi giù, mettendo a dura prova l’autocontrollo che avete deciso di esercitare per la serata.

Vi mordete il labbro, cercate di sviare la vostra attenzione dalle sue parole. Con un po’ di sforzo riuscite a controllarvi dall’iniziare un’accesa discussione con lui.

Finché dalla sua bocca non sentite uscire le seguenti parole:
“Beh, gli studenti dei ceti più ricchi sono decisamente più bravi e portati di quelli dei ceti più poveri…”.

E niente. Nessun desiderio di professionalità può più trattenervi dal litigare ferocemente con quel tipo e le sue idee classiste.

La discussione è feroce e senza esclusione di colpi, finché il vostro contendente non dice:
“Le chiacchiere stanno a zero, ecco un fantamiliardo di dati raccolti dal Miglior Osservatorio Mondiale di Statistica Ma Proprio Il Migliore che fanno proprio vedere come gli studenti più ricchi siano più performanti, quindi la mia tesi è corretta“.

Vi sentite sommersi dalla quantità di dati del Miglior Osservatorio Mondiale di Statistica Ma Proprio Il Migliore.
C’è qualcosa che non vi convince del discorso, ma siete sempre stati grandi fautori del metodo scientifico, che dopotutto si basa sulle osservazioni e sui dati e vi sentite sconfitti.

Ma è davvero così?

Una voce pacata e tranquilla proveniente dall’altra parte del tavolo salva voi e la vostra posizione:

“Correlazione non implica causalità”.

Cosa significa questa frase?

 

Piccola introduzione probabilistica

Per capire cosa è la correlazione occorre fare un piccolo tuffo in alcune nozioni di probabilità e statistica.

Prendiamo due dadi a sei facce, uno rosso e uno blu, entrambi non truccati in modo tale che se lanciati ogni numero abbia la stessa probabilità degli altri di uscire.

Chiamiamo R una variabile che tenga traccia delle probabilità delle singole facce del dado rosso di essere il risultato di un lancio.
R ci dirà quanto è probabile che esca ad esempio “1” o “3”, nel nostro caso darà sempre come risposta 1/6 perché tutti i risultati sono equiprobabili.
Chiamiamo analogamente B la variabile relativa al dado Blu.

Date delle variabili come R e B dette “aleatorie” è possibile calcolare alcuni valori che danno una misura di alcune nozioni probabilistiche.

Il valore atteso di una variabile è il risultato che in media ci aspettiamo di ottenere.
Nel caso di R (e B) il valore atteso è 3,5, ovvero lanciando diverse volte il dado ci aspettiamo che la media dei risultati si assesti intorno al 3,5.

Invece, la varianza di una variabile dà una misura della variabilità dei possibili risultati, ovvero quanto i valori possono discostarsi dal valore atteso.
Nel caso di R e B la varianza è intorno al 3 (35/12 per la precisione).

Per capirci, un dado con tutte le facce uguali a “3,5” avrebbe comunque un valore atteso uguale a 3,5, ma avrebbe una varianza nulla perché i valori non si discosterebbero per nulla dal valore atteso.

 

Cosa è la correlazione?

La correlazione tra due variabili X e Y invece misura quanto le variazioni delle due variabili siano legate tra loro.
Se la correlazione è positiva allora all’aumentare di X aumenta anche Y.
Se la correlazione è negativa allora all’aumentare di X, Y al contrario diminuisce.
Se la correlazione è nulla, allora le due variabili non sono correlate.

Ad esempio, i risultati del lancio del dado rosso e quelli del dado blu sono indipendenti, il risultato di un dado non influisce in nessun modo col risultato dell’altro.
Di conseguenza le variabili R e B non sono correlate.
Ma se consideriamo una terza variabile S che è la somma del risultato del dado rosso con il risultato del dado blu, allora S è correlata positivamente sia con R che con B.

Il fatto che però due variabili o due eventi siano tra loro correlati non dà nessuna informazione sull’esistenza di un rapporto di causa-effetto tra i due.

 

Cosa è la causalità?

A livello puramente logico il fatto che una proposizione A implichi una proposizione B, significa che la proposizione A è una condizione sufficiente per il verificarsi di B.

Quando A è vera allora è automaticamente vera B.

Se A è causa di B, allora la correlazione tra A e B è non nulla.
Il viceversa però, che la correlazione A e B implichi una causalità è falso, da cui la famosa frase “La correlazione non implica la causalità”.
L’affermare anche con esempi il contrario conduce alla fallacia logica del “cum hoc ergo propter hoc” (“Con questo, quindi a causa di questo”).

Nella realtà di tutti giorni, il fatto che A implichi B ha una sfumatura meno rigida dei formalismi logici astratti, ma non per questo non bisogna porre comunque attenzione.

Imbattersi come scienziati in dati sperimentali tra loro in correlazione può condurre a ipotesi e intuizioni che però necessitano di ulteriori indagini e ricerche, per scoprire connessioni di causalità e magari svolgere ulteriori esperimenti in tali direzioni.

I dati da soli non bastano, occorre anche avere l’esperienza e la sensibilità scientifica per comprenderli.

 

Cosa accade se non si fa attenzione?

A fidarsi esclusivamente delle correlazioni c’è il rischio di arrivare a delle conclusioni quantomeno bizzarre.

Ad esempio, come in Figura 1, il numero delle persone morte affogate dopo essere cadute in barca è correlato con il numero di matrimoni in Kentucky.
Da cui potremmo falsamente dedurre che i matrimoni in Kentucky non siano così felici e che certe cadute in acqua non siano così accidentali.

 

Correlazione tra persone affogate dopo esser cadute dalla barca e matrimoni in Kentucky
Figura 1: dati Centers for Disease Control & Prevention e National Vital Statistics Reports, immagine concessa da [1] con licenza (CC BY 4.0).

Oppure, da Figura 2, leggete che il consumo personale di formaggio è correlato con il numero di persone strangolate dalle proprie lenzuola.
Ve la sentireste di inferire che si tratti di regolamenti di conti della grande mafia dei formaggi che non perdona il fatto che i propri simili vengano mangiati?

Figura 2: dati U.S. Department of Agriculture e Centers for Disease Control & Prevention, immagine concessa da [1] con licenza (CC BY 4.0).
Infine, da Figura 3, potreste notare la correlazione tra dottorati in Matematica conferiti e quantità di uranio conservata nelle centrali nucleari statunitensi.
Non so voi, ma dei matematici proprio non mi fido.

Figura 3: dati National Science Foundation e Dept. of Energy, immagine concessa da [1] con licenza (CC BY 4.0).

Fonti:

[1]- Spurious Correlations – tylervigen.com (en)

[2]- Correlation does not imply causation – Wikipedia (en)

[3]- Paul W. Holland (1986) Statistics and Causal Inference, Journal of the American Statistical Association, 81:396, 945-960, DOI: 10.1080/01621459.1986.10478354

Lorenzo De Biase

Matematico, ricercatore e sbadato professionista. Non chiedetegli di fare i conti al ristorante, non è capace: vi ritroverete a dover pagare quantità immaginarie ed essere costretti a lavare i piatti per qualche settimana.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *