Correlazione spuria
Cos’è la correlazione spuria
Nelle statistiche, una correlazione spuria, o spuriezza, si riferisce a una connessione tra due variabili che sembra causale ma non lo è. Le relazioni spurie hanno spesso l’aspetto di una variabile che ne influenza un’altra. Questa correlazione spuria è spesso causata da un terzo fattore che non è evidente al momento dell’esame, a volte chiamato fattore di confusione.
Punti chiave
- La correlazione spuria, o spuriezza, è quando due fattori sembrano casualmente correlati ma non lo sono.
- La comparsa di una relazione causale è spesso dovuta a un movimento simile su un grafico che risulta essere casuale o causato da un terzo fattore “confondente”.
- La correlazione spuria può spesso essere causata da campioni di piccole dimensioni o endpoint arbitrari.
Come funziona la correlazione spuria
Quando due variabili casuali si inseguono strettamente su un grafico, è facile sospettare una correlazione, o una relazione tra i due fattori, in cui un cambiamento influisce sull’altro. Mettendo da parte la “causalità”, un altro argomento, questa osservazione può portare il lettore del grafico a credere che il movimento della variabile A sia collegato al movimento della variabile B o viceversa. ma a volte, a un esame statistico più attento, i movimenti allineati sono casuali o causati da un terzo fattore che influenza i primi due. Questa è una correlazione spuria. La ricerca condotta con campioni di piccole dimensioni o endpoint arbitrari è particolarmente suscettibile di falsità.
Esempio di correlazioni spurie
Non è troppo difficile scoprire correlazioni interessanti. Tuttavia, molti si riveleranno falsi. Per le specie maschili di Wall Street, due popolari correlazioni spurie coinvolgono donne e sport. Nata negli anni ’20 è la teoria della lunghezza della gonna, secondo la quale le lunghezze della gonna e la direzione del mercato azionario sono correlate. Se le lunghezze della gonna sono lunghe, significa che il mercato azionario sta diminuendo; se sono brevi, il mercato sta salendo. Verso la fine di gennaio si parla del cosiddetto indicatore del Super Bowl, il quale suggerisce che una vittoria del team AFC probabilmente significa che il mercato azionario scenderà nel prossimo anno, mentre una vittoria del team NFC fa presagire un aumento del mercato. Dal 1966, l’indicatore ha un tasso di precisione dell’80%. È un pezzo di conversazione divertente ma probabilmente non qualcosa che un consulente finanziario serio consiglierebbe come strategia di investimento per i clienti.
Ecco alcuni altri esempi di correlazioni spurie comuni:
- Gli annegamenti aumentano quando aumentano le vendite di gelato. Può sembrare che l’aumento delle vendite di gelato provochi più annegamento, ma in realtà l’aumento del calore può indurre più persone a nuotare, oltre a comprare più gelato.
- Il tasso di omicidi negli Stati Uniti dal 2006 al 2011 è sceso allo stesso ritmo dell’utilizzo di Microsoft Internet Explorer.
- I dirigenti che dicono per favore e grazie più spesso godono di migliori prestazioni di condivisione.
- Le persone che indossano l’abbigliamento della squadra Oakland Raiders hanno maggiori probabilità di commettere crimini.
Come individuare le correlazioni spurie
Gli statistici e altri scienziati che analizzano i dati devono essere sempre alla ricerca di relazioni spurie. Esistono numerosi metodi che usano, tra cui:
- Garantire un campione rappresentativo adeguato.
- Ottenere una dimensione adeguata del campione.
- Diffidare degli endpoint arbitrari.
- Controllo per quante più variabili esterne possibile.
- Utilizzo di un’ipotesi nulla e verifica di un valore p forte.