3 Maggio 2021 21:41

La tabella di distribuzione normale

Qual è la distribuzione normale?

La formula di distribuzione normale si basa su due semplici parametri, media e deviazione standard, che quantificano le caratteristiche di un dato insieme di dati. Mentre la media indica il valore “centrale” o medio dell’intero set di dati, la deviazione standard indica la “diffusione” o la variazione dei punti di dati attorno a quel valore medio.

Esempio

Considera i seguenti 2 set di dati:

  1. Set di dati 1 = {10, 10, 10, 10, 10, 10, 10, 10, 10, 10}
  2. Set di dati 2 = {6, 8, 10, 12, 14, 14, 12, 10, 8, 6}

Per Dataset1, media = 10 e deviazione standard (stddev) = 0

Per Dataset2, media = 10 e deviazione standard (stddev) = 2,83

Tracciamo questi valori per DataSet1:

Allo stesso modo per DataSet2:

La linea orizzontale rossa in entrambi i grafici sopra indica la “media” o il valore medio di ciascun set di dati (10 in entrambi i casi). Le frecce rosa nel secondo grafico indicano la diffusione o la variazione dei valori dei dati dal valore medio. Questo è rappresentato dal valore di deviazione standard di 2.83 nel caso di DataSet2. Poiché DataSet1 ha tutti i valori uguali (come 10 ciascuno) e nessuna variazione, il valore stddev è zero e quindi non sono applicabili frecce rosa.

Il valore stddev ha alcune caratteristiche significative e utili che sono estremamente utili nell’analisi dei dati. Per una distribuzione normale, i valori dei dati sono distribuiti simmetricamente su entrambi i lati della media. Per qualsiasi dataset normalmente distribuito, tracciare un grafico con stddev sull’asse orizzontale e no. dei valori dei dati sull’asse verticale, si ottiene il grafico seguente.

Proprietà di una distribuzione normale

  1. La curva normale è simmetrica rispetto alla media;
  2. La media è al centro e divide l’area in due metà;
  3. L’area totale sotto la curva è uguale a 1 per media = 0 e stdev = 1;
  4. La distribuzione è completamente descritta dalla sua media e stddev

Come si può vedere dal grafico sopra, stddev rappresenta quanto segue:

  • Il 68,3%  dei valori dei dati rientra nella deviazione standard di 1 dalla media (da -1 a +1)
  • Il 95,4%  dei valori dei dati rientra in  2 deviazioni standard  della media (da -2 a +2)
  • Il 99,7%  dei valori dei dati rientra in  3 deviazioni standard  della media (da -3 a +3)

L’area sotto la curva a campana, quando misurata, indica la probabilità desiderata di un dato intervallo:

  • inferiore a X: – ad esempio, probabilità che i valori dei dati siano inferiori a 70
  • maggiore di X – ad esempio, probabilità che i valori dei dati siano maggiori di 95
  • tra X 1 e X 2  – ad es. probabilità di valori di dati compresi tra 65 e 85

dove X è un valore di interesse (esempi di seguito).

Tracciare e calcolare l’area non è sempre conveniente, poiché diversi set di dati avranno valori di media e stddev diversi. Per facilitare un metodo standard uniforme per calcoli facili e applicabilità a problemi del mondo reale, è stata introdotta la conversione standard in valori Z, che fanno parte della tabella di distribuzione normale.

Z = (X – mean) / stddev, dove X è la variabile casuale.

Fondamentalmente, questa conversione forza la media e lo stddev a essere standardizzati rispettivamente a 0 e 1, il che consente di utilizzare un insieme standard definito di valori Z (dalla tabella di distribuzione normale ) per calcoli facili. Di seguito è riportata un’istantanea della tabella dei valori z standard contenente i valori di probabilità:

Per trovare la probabilità relativa al valore z di 0,239865, arrotondarla prima a 2 cifre decimali (ovvero 0,24). Quindi controlla le prime 2 cifre significative (0,2) nelle righe e la cifra meno significativa (restante 0,04) nella colonna. Ciò porterà a un valore di 0,09483.

La tabella di distribuzione normale completa, con una precisione fino a 5 punti decimali per i valori di probabilità (compresi quelli per i valori negativi), può essere trovata qui.

Vediamo alcuni esempi di vita reale. L’altezza degli individui in un grande gruppo segue un modello di distribuzione normale. Supponiamo di avere un insieme di 100 individui le cui altezze sono registrate e la media e stddev sono calcolate rispettivamente a 66 e 6 pollici.

Ecco alcune domande di esempio a cui è possibile rispondere facilmente utilizzando la tabella dei valori z:

  • Qual è la probabilità che una persona nel gruppo sia di 70 pollici o meno?

La domanda è trovare il valore cumulativo di P (X <= 70) cioè nell’intero set di dati di 100, quanti valori saranno compresi tra 0 e 70.

Convertiamo prima il valore X di 70 nel valore Z equivalente.

Z = (X – media) / stddev = (70-66) / 6 = 4/6 = 0,66667 = 0,67 (arrotondato a 2 cifre decimali)

Ora dobbiamo trovare P (Z <= 0,67) = 0. 24857 (dalla tabella z sopra)

cioè c’è una probabilità del 24,857% che un individuo nel gruppo sarà inferiore o uguale a 70 pollici.

Ma aspetta: quanto sopra è incompleto. Ricorda, stiamo cercando la probabilità di tutte le altezze possibili fino a 70, cioè da 0 a 70. Quanto sopra ti dà solo la porzione dalla media al valore desiderato (cioè da 66 a 70). Dobbiamo includere l’altra metà – da 0 a 66 – per arrivare alla risposta corretta.

Poiché da 0 a 66 rappresenta la mezza porzione (cioè una media da estremo a medio), la sua probabilità è semplicemente 0,5.

Da qui la corretta probabilità che una persona abbia 70 pollici o meno = 0,24857 + 0,5 = 0. 74857 = 74,857%

Graficamente (calcolando l’area), queste sono le due regioni sommate che rappresentano la soluzione:

  • Qual è la probabilità che una persona sia di 75 pollici o superiore?

cioè Trova P cumulativo complementare  (X> = 75).

Z = (X – media) / stddev = (75-66) / 6 = 9/6 = 1.5

P (Z> = 1,5) = 1- P (Z <= 1,5) = 1 – (0,5 + 0,43319) = 0,06681 = 6,681%

  • Qual è la probabilità che una persona si trovi tra 52 pollici e 67 pollici?

Trova P (52 <= X <= 67).

P (52 <= X <= 67) = P [(52-66) / 6 <= Z <= (67-66) / 6] = P (-2,33 <= Z <= 0,17)

= P (Z <= 0,17) –P (Z <= -0,233) = (0,5 + 0,56749) – (.40905) =

Questa tabella di distribuzione normale (e valori z) trova comunemente uso per qualsiasi calcolo di probabilità sui movimenti di prezzo previsti nel mercato azionario per azioni e indici. Sono utilizzati nel trading basato sulla gamma, identificando trend rialzisti o ribassisti, livelli di indicatori tecnici basati sui concetti di distribuzione normale di media e deviazione standard.