INTERPRETAZIONE DELL'ANALISI PCA - KamilTaylan.blog
20 Aprile 2022 14:03

INTERPRETAZIONE DELL’ANALISI PCA

L’analisi delle componenti principali (ACP) è una tecnica statistica per la riduzione delle dimensioni. In pratica, si utilizza quando all’interno di un dataset ci sono molte variabili correlate tra di loro e si vorrebbe ridurne il numero perdendo la minore quantità di informazione possibile.

Nella PCA, l’idea è quella di trovare un nuovo sistema di riferimento in modo da massimizzare la varianza delle variabili rappresentate lungo gli assi. La varianza totale delle variabili viene suddivisa in un numero di variabili uguali a quello di partenza, ma il cui numero può essere ridotto.

Cosa sono i Loadings?

I loading sono i coefficienti applicati alle variabili originarie per determinare le componenti principali. … Anche una rappresentazione grafica dei valori di PCA tramite lo scatterplot dei loading può aiutare a “dare un nome” alle PC.

Come si calcola la varianza spiegata?

Varianza spiegata = Devianza spiegata / N. Più grande è questa quantità e migliore sarà il modello che sto applicando.

Che cosa è la varianza?

La varianza identifica la dispersione dei valori della variabile X attorno al valor medio. Tanto più piccola è la varianza, tanto più i valori della variabile sono concentrati attorno al valor medio.

Come si calcola il coefficiente di determinazione?

Una volta ottenuto r, possiamo calcolare r2 (r-quadrato), semplicemente elevando r al quadrato. r2 viene detto anche coefficiente di determinazione ed è un indice ricco di significato, in quanto esprime la variabilità nella variabile dipendente spiegata dalla variabile indipendente.

Come si calcola la regressione?

L’equazione della retta di regressione può essere scritta in due modi:

  1. yi= β0 + β1*xi + εi.
  2. yi^= β0 + β1*xi.

Qual è il coefficiente di regressione?

i coefficienti di regressione sono i parametri (v.) bi. Se la regressione è lineare, la costante b0 si chiama intercetta (v.), mentre gli altri coefficienti indicano la variazione della variabile dipendente Y in corrispondenza della variazione di una unità delle variabili (v.)

Come leggere i risultati di una regressione?

Il segno del coefficiente di regressione b indica il “verso” della relazione: il segno positivo indica una concordanza tra le variabili (ad un aumento della x corrisponde un aumento della y), il segno negativo una discordanza (ad un aumento della x corrisponde una diminuzione della y).

Come calcolare i parametri della retta di regressione?

Coefficienti stimati retta regressione

  1. si calcolano i valori medi ¯x e ¯y rispettivamente di X e di Y;
  2. Si calcola la varianza campionaria di X, s2x e la covarianza tra X e Y, COV(X,Y);
  3. Infine si trovano b0 e b1 con le seguenti formule: b1=COV(X,Y)s2x. b0=¯y−b1¯x.

Come calcolare la retta di regressione con Excel?

Rechiamoci nella cella “C2” e scriviamo la nostra formula “=regr. lin”. Selezioniamo i valori della nostra Y, punto e virgola, della nostra X, punto e virgola, lasciamo in bianco il campo della “costante” e, nel campo “stat”, selezioniamo “VERO”. Questo ci permetterà di ottenere ulteriori statistiche della regressione.

Come si calcola B1?

  1. Calcola il coefficiente di regressione (B1) B1 = Covarianza XY / Varianza X. …
  2. Calcola l’intercetta (B0) B0 = Media Y – (B1 * Media X) …
  3. Scrivi la retta. Y = B0 + B1*X.
  4. Come si calcola la bontà di adattamento?

    Per il test della bontà di adattamento, questo numero deve essere inferiore di un’unità al numero di categorie. Avendo cinque gusti di caramelle, avremo 5 – 1 = 4 gradi di libertà. Il valore del chi-quadrato con α = 0.05 e 4 gradi di libertà è pari a 9.488.

    Cos’è la bontà di adattamento?

    L’indice di bontà di adattamento R2 (o indice di determinazione lineare) è ottenuto rapportando la devianza spiegata alla devianza totale. Elevati valori della Dev(S), e quindi di R2, indicano un buon adattamento in quanto larga parte della variabilità di Y è spiegata (linearmente) dalle variazioni della X.

    Come si calcola il Chi quadro con R?

    Si tratta di un test di verifica di ipotesi che attribuisce un valore di probabilità all’ipotesi nulla (cioè all’ipotesi di assenza di associazione). In R, è possibile calcolare il test del chi quadrato per una tabella a doppia entrata in diversi modi. La funzione utilizzata è chisq.

    Come si calcola la devianza?

    Calcolo varianza campionaria

    Prima si calcola la media della variabile. Poi si determina la devianza: si calcola la differenza di ogni osservazione dalla media e poi se ne calcola il quadrato. Infine si fa la somma di tutti le differenze al quadrato.

    Come si calcola la devianza residua?

    Come si calcola la devianza tra i gruppi? La devianza ENTRO gruppi (devianza residua) è pari alla somma algebrica delle devianze dei singoli gruppi. La devianza fra gruppi si può calcolare come differenza fra la devianza TOTALE e la devianza ENTRO gruppi.

    Come si calcola la frequenza assoluta?

    Per calcolare la frequenza assoluta di ciascun dato raccolto creiamo una tabella con 4 righe e 2 colonne: – nella prima colonna riportiamo i dati suddivisi in classi, date dal numero di fratelli; – nella seconda colonna scriviamo la frequenza assoluta, cioè numero di volte in cui si è presentato lo stesso dato.

    Come calcolare la devianza su Excel?

    Come calcolare la varianza su Excel

    Per calcolare la varianza della distribuzione in una cella qualsiasi ( es. D2 ), occorre spostarsi sulla cella e digitare la funzione =DEV. POP(B2:B6).

    Come calcolare Sigma su Excel?

    Per calcolare lo scarto quadratico medio, spostarsi su una cella a caso ( es. D2 ) e digitare la funzione =DEV. ST. POP(B2:B6).

    Come si calcola la frequenza su Excel?

    Basta andare direttamente nella cella E2 ed imputare la Funzione: =FREQUENZA(B2:B17;D2:D7) e premere semplicemente invio. Lo spilling (espansione dei dati) calcolerà in corrispondenza delle classi, riga per riga, il dato della Frequenza assoluta.