3 Maggio 2021 17:47

Omoschedastico

Cos’è l’omoschedastico?

Omoschedastico (scritto anche “omoschedastico”) si riferisce a una condizione in cui la varianza del termine residuo, o di errore, in un modello di regressione è costante. Ovvero, il termine di errore non varia molto al variare del valore della variabile predittore. Un altro modo per dirlo è che la varianza dei punti dati è più o meno la stessa per tutti i punti dati. Ciò suggerisce un livello di coerenza e rende più facile modellare e lavorare con i dati attraverso la regressione. Tuttavia, la mancanza di omoschedasticità può suggerire che il modello di regressione potrebbe dover includere variabili predittive aggiuntive per spiegare le prestazioni della variabile dipendente.

Punti chiave

  • L’omoschedasticità si verifica quando la varianza del termine di errore in un modello di regressione è costante.
  • Se la varianza del termine di errore è omoschedastica, il modello era ben definito. Se c’è troppa varianza, il modello potrebbe non essere definito bene.
  • L’aggiunta di variabili predittive aggiuntive può aiutare a spiegare le prestazioni della variabile dipendente.
  • Al contrario, l’eteroschedasticità si verifica quando la varianza del termine di errore non è costante.

Come funziona l’omoschedasticità

L’omoschedasticità è un’ipotesi della modellazione della regressione lineare e dati di questo tipo funzionano bene con il metodo dei minimi quadrati. Se la varianza degli errori attorno alla linea di regressione varia molto, il modello di regressione potrebbe essere definito male. L’opposto dell’omoschedasticità è l’eteroschedasticità proprio come l’opposto di “omogeneo” è “eterogeneo”. L’eteroschedasticità (scritto anche “eteroschedasticità”) si riferisce a una condizione in cui la varianza del termine di errore in un’equazione di regressione non è costante.



Quando si considera che la varianza è la differenza misurata tra il risultato previsto e il risultato effettivo di una data situazione, determinare l’omoschedasticità può aiutare a determinare quali fattori devono essere regolati per l’accuratezza.

considerazioni speciali

Un semplice modello di regressione, o equazione, è costituito da quattro termini. Sul lato sinistro c’è la variabile dipendente. Rappresenta il fenomeno che il modello cerca di “spiegare”. Sul lato destro ci sono una costante, una variabile predittiva e un termine residuo o di errore. Il termine di errore mostra la quantità di variabilità nella variabile dipendente che non è spiegata dalla variabile predittore.

Esempio di omoschedastico

Ad esempio, supponi di voler spiegare i punteggi dei test degli studenti utilizzando la quantità di tempo che ogni studente ha trascorso a studiare. In questo caso, i punteggi del test sarebbero la variabile dipendente e il tempo trascorso a studiare sarebbe la variabile predittiva.

Il termine di errore mostrerebbe la quantità di varianza nei punteggi del test che non è stata spiegata dalla quantità di tempo di studio. Se quella varianza è uniforme o omoschedastica, allora ciò suggerirebbe che il modello potrebbe essere una spiegazione adeguata per le prestazioni del test, spiegandola in termini di tempo trascorso a studiare.

Ma la varianza potrebbe essere eteroschedastica. Un grafico dei dati del termine di errore può mostrare che una grande quantità di tempo di studio corrispondeva molto strettamente ai punteggi dei test alti, ma che i punteggi dei test del tempo di studio bassi variavano ampiamente e includevano anche alcuni punteggi molto alti. Quindi la varianza dei punteggi non sarebbe ben spiegata semplicemente da una variabile predittiva: la quantità di tempo che studia. In questo caso, probabilmente è all’opera qualche altro fattore e potrebbe essere necessario migliorare il modello per identificarlo o per loro.

Ulteriori indagini potrebbero rivelare che alcuni studenti avevano visto le risposte al test in anticipo o che avevano precedentemente sostenuto un test simile, e quindi non avevano bisogno di studiare per questo particolare test. Del resto, potrebbe semplicemente risultare che gli studenti avevano diversi livelli di capacità di superamento del test indipendentemente dal loro tempo di studio e dalle loro prestazioni nei test precedenti, indipendentemente dalla materia.

Per migliorare il modello di regressione, il ricercatore dovrebbe provare altre variabili esplicative che potrebbero fornire un adattamento più accurato ai dati. Se, ad esempio, alcuni studenti avessero visto le risposte in anticipo, il modello di regressione avrebbe quindi due variabili esplicative: tempo di studio e se lo studente aveva una conoscenza preliminare delle risposte. Con queste due variabili, sarebbe stata spiegata una parte maggiore della varianza dei punteggi del test e la varianza del termine di errore potrebbe quindi essere omoschedastica, suggerendo che il modello era ben definito.