Distribuzione normale dei dati

Una distribuzione normale è una comune distribuzione di probabilità. Ha una forma spesso indicata come una “curva a campana”.

Molti insiemi di dati quotidiani seguono tipicamente una distribuzione normale: per esempio, le altezze degli esseri umani adulti, i punteggi di un test dato a una grande classe, gli errori nelle misurazioni.

La distribuzione normale è sempre simmetrica rispetto alla media.

La deviazione standard è la misura di quanto sia diffuso un insieme di dati distribuiti normalmente. È una statistica che ti dice quanto strettamente tutti gli esempi sono raccolti intorno alla media in una serie di dati. La forma di una distribuzione normale è determinata dalla media e dalla deviazione standard. Più ripida è la curva a campana, più piccola è la deviazione standard. Se gli esempi sono molto distanti tra loro, la curva a campana sarà molto più piatta, il che significa che la deviazione standard è grande.

In generale, circa il 68% dell’area sotto una curva di distribuzione normale si trova entro una deviazione standard della media.

Cioè, se x ¯ è la media e σ è la deviazione standard della distribuzione, allora il 68% dei valori cade nell’intervallo tra ( x ¯ – σ ) e ( x ¯ + σ ) . Nella figura qui sotto, questo corrisponde alla regione ombreggiata di rosa.

Circa il 95 % dei valori si trova entro due deviazioni standard della media, cioè tra ( x ¯ – 2 σ ) e ( x ¯ + 2 σ ) .

(Nella figura, questa è la somma delle regioni rosa e blu: 34 % + 34 % + 13.5 % + 13.5 % = 95 % .)

Circa il 99,7 % dei valori si trova entro tre deviazioni standard della media, cioè tra ( x ¯ – 3 σ ) e ( x ¯ + 3 σ ) .

(Le regioni rosa, blu e verde nella figura.)

(Si noti che questi valori sono approssimativi.)

Esempio 1:

Un insieme di dati è distribuito normalmente con una media di 5 . Quale percentuale dei dati è inferiore a 5?

Una distribuzione normale è simmetrica rispetto alla media. Quindi, la metà dei dati sarà inferiore alla media e la metà dei dati sarà maggiore della media.

Pertanto, il 50% dei dati è inferiore a 5.

Esempio 2:

La durata della batteria di un telefono cellulare completamente carico è normalmente distribuita con una media di 14 ore e una deviazione standard di 1 ora. Qual è la probabilità che una batteria duri almeno 13 ore?

La media è 14 e la deviazione standard è 1.

Il 50% della distribuzione normale si trova a destra della media, quindi il 50% delle volte la batteria durerà più di 14 ore.

L’intervallo da 13 a 14 ore rappresenta una deviazione standard a sinistra della media. Quindi, circa il 34 % del tempo, la batteria durerà tra 13 e 14 ore.

Pertanto, la probabilità che la batteria duri almeno 13 ore è circa il 34 % + 50 % o 0,84 .

Esempio 3:

Il peso medio di un lampone è 4,4 gm con una deviazione standard di 1,3 gm. Qual è la probabilità che un lampone selezionato a caso pesi almeno 3,1 gm ma non più di 7,0 gm?

La media è 4,4 e la deviazione standard è 1,3 .

Si noti che

4,4 – 1,3 = 3,1

e

4,4 + 2 ( 1,3 ) = 7,0

Quindi, l’intervallo 3,1 ≤ x ≤ 7,0 è in realtà tra una deviazione standard sotto la media e 2 deviazioni standard sopra la media.

Nei dati normalmente distribuiti, circa il 34% dei valori si trova tra la media e una deviazione standard sotto la media, e il 34% tra la media e una deviazione standard sopra la media.

Inoltre, il 13,5% dei valori si trova tra la prima e la seconda deviazione standard sopra la media.

Sommando le aree, otteniamo 34 % + 34 % + 13,5 % = 81,5 % .

Pertanto, la probabilità che un lampone selezionato a caso peserà almeno 3,1 gm ma non più di 7,0 gm è 81,5 % o 0,815 .

Esempio 4:

Una città ha 330.000 adulti. Le loro altezze sono normalmente distribuite con una media di 175 cm e una varianza di 100 cm 2. Quante persone ci si aspetta che siano più alte di 205 cm?

La varianza dell’insieme di dati è data essere 100 cm 2 . Quindi, la deviazione standard è 100 o 10 cm.

Ora, 175 + 3 ( 10 ) = 205 , quindi il numero di persone più alte di 205 cm corrisponde al sottoinsieme di dati che si trova più di 3 deviazioni standard sopra la media.

Il grafico sopra mostra che questo rappresenta circa lo 0,15% dei dati. Tuttavia, questa percentuale è approssimativa, e in questo caso, abbiamo bisogno di maggiore precisione. La percentuale reale, corretta con 4 cifre decimali, è 0,1318 % .

330 , 000 × 0.001318 ≈ 435

Quindi, ci saranno circa 435 persone nella città più alte di 205 cm.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.