4 Maggio 2021 2:56

Fattore di inflazione varianza (VIF)

Che cos’è un fattore di inflazione della varianza (VIF)?

Il fattore di inflazione della varianza (VIF) è una misura della quantità di  multicollinearità  in un insieme di  variabili di regressione multiple . Matematicamente, il VIF per una variabile del modello di regressione è uguale al rapporto tra la varianza complessiva del modello   e la varianza di un modello che include solo quella singola variabile indipendente. Questo rapporto è calcolato per ogni variabile indipendente. Un VIF elevato indica che la variabile indipendente associata è altamente allineata con le altre variabili nel modello.

Punti chiave

  • Un fattore di inflazione della varianza (VIF) fornisce una misura della multicollinearità tra le variabili indipendenti in un modello di regressione multipla.
  • Rilevare la multicollinearità è importante perché mentre la multicollinearità non riduce il potere esplicativo del modello, riduce la significatività statistica delle variabili indipendenti.
  • Un fattore di inflazione a grande varianza (VIF) su una variabile indipendente indica una relazione altamente collineare con le altre variabili che dovrebbero essere considerate o aggiustate nella struttura del modello e nella selezione delle variabili indipendenti.

Comprensione di un fattore di inflazione della varianza (VIF)

Un fattore di inflazione varianza è uno strumento per aiutare a identificare il grado di multicollinearità. Una regressione multipla viene utilizzata quando una persona desidera testare l’effetto di più variabili su un particolare risultato. La variabile dipendente è il risultato su cui agiscono le variabili indipendenti: gli input nel modello. La multicollinearità esiste quando esiste una relazione lineare, o correlazione, tra una o più variabili o input indipendenti.

La multicollinearità crea un problema nella regressione multipla perché gli input si influenzano tutti a vicenda. Pertanto, non sono effettivamente indipendenti ed è difficile verificare quanto la combinazione delle variabili indipendenti influisca sulla variabile dipendente, o risultato, all’interno del modello di regressione. In termini statistici, un modello di regressione multipla in cui vi è un’elevata multicollinearità renderà più difficile stimare la relazione tra ciascuna delle variabili indipendenti e la variabile dipendente. Piccoli cambiamenti nei dati utilizzati o nella struttura dell’equazione del modello possono produrre cambiamenti ampi e irregolari nei coefficienti stimati sulle variabili indipendenti.

Per garantire che il modello sia specificato correttamente e funzioni correttamente, sono disponibili test che possono essere eseguiti per la multicollinearità. Il fattore di inflazione della varianza è uno di questi strumenti di misurazione. L’utilizzo dei fattori di inflazione della varianza aiuta a identificare la gravità di eventuali problemi di multicollinearità in modo che il modello possa essere regolato. Il fattore di inflazione della varianza misura quanto il comportamento (varianza) di una variabile indipendente è influenzato, o gonfiato, dalla sua interazione / correlazione con le altre variabili indipendenti. I fattori di inflazione della varianza consentono una misura rapida di quanto una variabile contribuisce all’errore standard nella regressione. Quando esistono problemi significativi di multicollinearità, il fattore di inflazione della varianza sarà molto grande per le variabili coinvolte. Dopo che queste variabili sono state identificate, è possibile utilizzare diversi approcci per eliminare o combinare variabili collineari, risolvendo il problema della multicollinearità.

considerazioni speciali

Multicollinearità

Sebbene la multicollinearità non riduca il potere predittivo complessivo di un modello, può produrre stime dei coefficienti di regressione che non sono statisticamente significativi. In un certo senso, può essere pensato come una sorta di doppio conteggio nel modello. Quando due o più variabili indipendenti sono strettamente correlate o misurano quasi la stessa cosa, l’effetto sottostante che misurano viene considerato due volte (o più) tra le variabili. Diventa difficile o impossibile dire quale variabile sta realmente influenzando la variabile indipendente. Questo è un problema perché l’obiettivo di molti modelli econometrici è testare esattamente questo tipo di relazione statistica tra le variabili indipendenti e la variabile dipendente.

Ad esempio, supponiamo che un economista voglia verificare se esiste una relazione statisticamente significativa tra il tasso di disoccupazione (variabile indipendente) e il tasso di inflazione (variabile dipendente). Includere ulteriori variabili indipendenti correlate al tasso di disoccupazione, come nuove richieste iniziali di disoccupazione, potrebbe introdurre la multicollinearità nel modello. Il modello complessivo potrebbe mostrare un forte potere esplicativo statisticamente sufficiente, ma non essere in grado di identificare se l’effetto è principalmente dovuto al tasso di disoccupazione o alle nuove richieste iniziali di disoccupazione. Questo è ciò che il VIF rileverebbe e suggerirebbe di eliminare una delle variabili dal modello o di trovare un modo per consolidarle per catturare il loro effetto congiunto a seconda dell’ipotesi specifica che il ricercatore è interessato a testare.