Bias di selezione del campione
Che cos’è il bias di selezione del campione?
Il bias di selezione del campione è un tipo di bias causato dalla scelta di dati non casuali per l’analisi statistica. Il bias esiste a causa di un difetto nel processo di selezione del campione, in cui un sottoinsieme di dati viene sistematicamente escluso a causa di un particolare attributo. L’esclusione del sottoinsieme può influenzare la significatività statistica del test e può falsare le stime dei parametri del modello statistico.
Comprensione del bias di selezione del campione
Il bias di sopravvivenza è un tipo comune di bias di selezione del campione. Ad esempio, quando si esegue il back-test di una strategia di investimento su un ampio gruppo di azioni, può essere conveniente cercare titoli che dispongono di dati per l’intero periodo campione. Se avessimo intenzione di testare la strategia rispetto a 15 anni di dati sulle azioni, potremmo essere inclini a cercare azioni che abbiano informazioni complete per l’intero periodo di 15 anni. Tuttavia, l’eliminazione di un titolo che ha interrotto le negoziazioni o che ha lasciato il mercato a breve, avrebbe introdotto un pregiudizio nel nostro campione di dati. Dal momento che includiamo solo azioni che sono durate il periodo di 15 anni, i nostri risultati finali sarebbero errati, in quanto hanno funzionato abbastanza bene da sopravvivere al mercato.
Gli indici di performance degli hedge fund sono un esempio di bias di selezione del campione soggetto a bias di sopravvivenza. Poiché gli hedge fund che non sopravvivono smettono di riportare la loro performance agli aggregatori di indici, gli indici risultanti sono naturalmente inclinati a fondi e strategie che rimangono, quindi “sopravvivono”. Questo può essere un problema anche con i servizi di segnalazione dei fondi comuni di investimento più diffusi.
Gli analisti possono adeguarsi per tenere conto di questi pregiudizi, ma possono introdurre nuovi pregiudizi nel processo.