Overfitting
Cos’è l’overfitting?
L’overfitting è un errore di modellazione nelle statistiche che si verifica quando una funzione è troppo allineata a un insieme limitato di punti dati. Di conseguenza, il modello è utile in riferimento solo al suo set di dati iniziale e non a qualsiasi altro set di dati.
L’overfitting del modello assume generalmente la forma di creare un modello eccessivamente complesso per spiegare le idiosincrasie nei dati in esame. In realtà, i dati spesso studiati contengono un certo grado di errore o rumore casuale al loro interno. Pertanto, il tentativo di rendere il modello troppo conforme a dati leggermente imprecisi può infettare il modello con errori sostanziali e ridurne il potere predittivo.
Punti chiave
- L’overfitting è un errore che si verifica nella modellazione dei dati come risultato di una particolare funzione che si allinea troppo da vicino a un insieme minimo di punti dati.
- I professionisti finanziari rischiano di adattare eccessivamente un modello basato su dati limitati e di ritrovarsi con risultati imperfetti.
- Quando un modello è stato compromesso dall’overfitting, il modello potrebbe perdere il suo valore come strumento predittivo per gli investimenti.
Capire l’overfitting
Ad esempio, un problema comune è l’utilizzo di algoritmi informatici per cercare ampi database di dati storici di mercato al fine di trovare modelli. Dato uno studio sufficiente, è spesso possibile sviluppare teoremi elaborati che sembrano prevedere cose come i rendimenti nel mercato azionario con estrema precisione.
Tuttavia, se applicati a dati al di fuori del campione, tali teoremi potrebbero probabilmente rivelarsi semplicemente l’eccessivo adattamento di un modello a quelli che in realtà erano solo eventi casuali. In tutti i casi, è importante testare un modello su dati che sono al di fuori del campione utilizzato per svilupparlo.
Come prevenire l’overfitting
I modi per prevenire l’overfitting includono la convalida incrociata, in cui i dati utilizzati per l’addestramento del modello vengono suddivisi in pieghe o partizioni e il modello viene eseguito per ogni piegatura. Quindi, viene calcolata la media della stima dell’errore complessivo. Altri metodi includono l’assemblaggio, in cui le previsioni sono combinate da almeno due modelli separati, l’aumento dei dati, in cui il set di dati disponibile è fatto per sembrare diverso, e la semplificazione dei dati, in cui il modello è semplificato in modo da evitare l’overfitting.
I professionisti finanziari devono essere sempre consapevoli dei pericoli dell’eccessivo adattamento di un modello basato su dati limitati.
Esempio di overfitting
L’overfitting è anche un fattore nell’apprendimento automatico. Potrebbe emergere quando a una macchina è stato insegnato a scansionare dati specifici in un modo, ma quando lo stesso processo viene applicato a un nuovo set di dati, i risultati non sono corretti. Ad esempio, un’università che vede un tasso di abbandono scolastico superiore a quello che vorrebbe decide di voler creare un modello per prevedere la probabilità che un candidato arrivi fino alla laurea. Per fare ciò, l’università forma un modello da un set di dati di 5.000 candidati e i loro risultati. Quindi esegue il modello sul set di dati originale, il gruppo di 5.000 candidati, e il modello prevede il risultato con una precisione del 98%. Ma per testarne l’accuratezza, eseguono il modello anche su un secondo set di dati: 5.000 candidati in più. Tuttavia, questa volta, il modello è accurato solo al 50%, poiché il modello si adattava troppo strettamente a un sottoinsieme di dati ristretto, in questo caso, le prime 5.000 applicazioni.