Una distribuzione normale è una comune distribuzione di probabilità. Ha una forma spesso indicata come una “curva a campana”.
Molti insiemi di dati quotidiani seguono tipicamente una distribuzione normale: per esempio, le altezze degli esseri umani adulti, i punteggi di un test dato a una grande classe, gli errori nelle misurazioni.
La distribuzione normale è sempre simmetrica rispetto alla media.
La deviazione standard è la misura di quanto sia diffuso un insieme di dati distribuiti normalmente. È una statistica che ti dice quanto strettamente tutti gli esempi sono raccolti intorno alla media in una serie di dati. La forma di una distribuzione normale è determinata dalla media e dalla deviazione standard. Più ripida è la curva a campana, più piccola è la deviazione standard. Se gli esempi sono molto distanti tra loro, la curva a campana sarà molto più piatta, il che significa che la deviazione standard è grande.
In generale, circa il 68% dell’area sotto una curva di distribuzione normale si trova entro una deviazione standard della media.
Cioè, se x ¯ è la media e σ è la deviazione standard della distribuzione, allora il 68% dei valori cade nell’intervallo tra ( x ¯ – σ ) e ( x ¯ + σ ) . Nella figura qui sotto, questo corrisponde alla regione ombreggiata di rosa.
Circa il 95 % dei valori si trova entro due deviazioni standard della media, cioè tra ( x ¯ – 2 σ ) e ( x ¯ + 2 σ ) .
(Nella figura, questa è la somma delle regioni rosa e blu: 34 % + 34 % + 13.5 % + 13.5 % = 95 % .)
Circa il 99,7 % dei valori si trova entro tre deviazioni standard della media, cioè tra ( x ¯ – 3 σ ) e ( x ¯ + 3 σ ) .
(Le regioni rosa, blu e verde nella figura.)
(Si noti che questi valori sono approssimativi.)
Esempio 1:
Un insieme di dati è distribuito normalmente con una media di 5 . Quale percentuale dei dati è inferiore a 5?
Una distribuzione normale è simmetrica rispetto alla media. Quindi, la metà dei dati sarà inferiore alla media e la metà dei dati sarà maggiore della media.
Pertanto, il 50% dei dati è inferiore a 5.
Esempio 2:
La durata della batteria di un telefono cellulare completamente carico è normalmente distribuita con una media di 14 ore e una deviazione standard di 1 ora. Qual è la probabilità che una batteria duri almeno 13 ore?
La media è 14 e la deviazione standard è 1.
Il 50% della distribuzione normale si trova a destra della media, quindi il 50% delle volte la batteria durerà più di 14 ore.
L’intervallo da 13 a 14 ore rappresenta una deviazione standard a sinistra della media. Quindi, circa il 34 % del tempo, la batteria durerà tra 13 e 14 ore.
Pertanto, la probabilità che la batteria duri almeno 13 ore è circa il 34 % + 50 % o 0,84 .
Esempio 3:
Il peso medio di un lampone è 4,4 gm con una deviazione standard di 1,3 gm. Qual è la probabilità che un lampone selezionato a caso pesi almeno 3,1 gm ma non più di 7,0 gm?
La media è 4,4 e la deviazione standard è 1,3 .
Si noti che
4,4 – 1,3 = 3,1
e
4,4 + 2 ( 1,3 ) = 7,0
Quindi, l’intervallo 3,1 ≤ x ≤ 7,0 è in realtà tra una deviazione standard sotto la media e 2 deviazioni standard sopra la media.
Nei dati normalmente distribuiti, circa il 34% dei valori si trova tra la media e una deviazione standard sotto la media, e il 34% tra la media e una deviazione standard sopra la media.
Inoltre, il 13,5% dei valori si trova tra la prima e la seconda deviazione standard sopra la media.
Sommando le aree, otteniamo 34 % + 34 % + 13,5 % = 81,5 % .
Pertanto, la probabilità che un lampone selezionato a caso peserà almeno 3,1 gm ma non più di 7,0 gm è 81,5 % o 0,815 .
Esempio 4:
Una città ha 330.000 adulti. Le loro altezze sono normalmente distribuite con una media di 175 cm e una varianza di 100 cm 2. Quante persone ci si aspetta che siano più alte di 205 cm?
La varianza dell’insieme di dati è data essere 100 cm 2 . Quindi, la deviazione standard è 100 o 10 cm.
Ora, 175 + 3 ( 10 ) = 205 , quindi il numero di persone più alte di 205 cm corrisponde al sottoinsieme di dati che si trova più di 3 deviazioni standard sopra la media.
Il grafico sopra mostra che questo rappresenta circa lo 0,15% dei dati. Tuttavia, questa percentuale è approssimativa, e in questo caso, abbiamo bisogno di maggiore precisione. La percentuale reale, corretta con 4 cifre decimali, è 0,1318 % .
330 , 000 × 0.001318 ≈ 435
Quindi, ci saranno circa 435 persone nella città più alte di 205 cm.