Normalfördelning av data

En normalfördelning är en vanlig sannolikhetsfördelning . Den har en form som ofta kallas för en ”klockkurva”.

Många vardagliga datamängder följer vanligen en normalfördelning: till exempel höjder hos vuxna människor, poäng på ett prov som ges till en stor klass, fel i mätningar.

Normalfördelningen är alltid symmetrisk kring medelvärdet.

Standardavvikelsen är ett mått på hur utspridd en normalfördelad datamängd är. Det är en statistik som talar om hur tätt alla exempel är samlade kring medelvärdet i en datamängd. Formen på en normalfördelning bestäms av medelvärdet och standardavvikelsen. Ju brantare klockkurvan är, desto mindre är standardavvikelsen. Om exemplen är utspridda långt ifrån varandra blir klockkurvan mycket flackare, vilket innebär att standardavvikelsen är stor.

I allmänhet ligger ungefär 68 % av arean under en normalfördelningskurva inom en standardavvikelse från medelvärdet.

Det vill säga, om x ¯ är medelvärdet och σ är fördelningens standardavvikelse, faller 68 % av värdena inom intervallet mellan ( x ¯ – σ ) och ( x ¯ + σ ) . I figuren nedan motsvarar detta det område som är rosa skuggat.

Ungefär 95 % av värdena ligger inom två standardavvikelser från medelvärdet, dvs. mellan ( x ¯ – 2 σ ) och ( x ¯ + 2 σ ) .

(I figuren är detta summan av de rosa och blå områdena: 34 % + 34 % + 13.5 % + 13.5 % = 95 % .)

Ungefär 99,7 % av värdena ligger inom tre standardavvikelser från medelvärdet, dvs. mellan ( x ¯ – 3 σ ) och ( x ¯ + 3 σ ) .

(De rosa, blå och gröna områdena i figuren.)

(Observera att dessa värden är ungefärliga.)

Exempel 1:

En uppsättning data är normalfördelad med ett medelvärde på 5 . Hur många procent av uppgifterna är mindre än 5 ?

En normalfördelning är symmetrisk kring medelvärdet. Så hälften av uppgifterna kommer att vara mindre än medelvärdet och hälften av uppgifterna kommer att vara större än medelvärdet.

Därför är 50 % procent av uppgifterna mindre än 5 .

Exempel 2:

Livslängden för ett fulladdat mobiltelefonbatteri är normalfördelad med ett medelvärde på 14 timmar och en standardavvikelse på 1 timme. Vad är sannolikheten för att ett batteri håller i minst 13 timmar?

Medelvärdet är 14 och standardavvikelsen är 1 .

50 % av normalfördelningen ligger till höger om medelvärdet, så 50 % av tiden kommer batteriet att hålla längre än 14 timmar.

Intervallet från 13 till 14 timmar motsvarar en standardavvikelse till vänster om medelvärdet. Så ungefär 34 % av tiden kommer batteriet att hålla mellan 13 och 14 timmar.

Därför är sannolikheten att batteriet håller i minst 13 timmar ungefär 34 % + 50 % eller 0,84 .

Exempel 3:

Den genomsnittliga vikten på ett hallon är 4,4 g med en standardavvikelse på 1,3 g. Vad är sannolikheten för att ett slumpmässigt valt hallon väger minst 3,1 gm men högst 7,0 gm?

Medelvärdet är 4,4 och standardavvikelsen är 1,3 .

Observera att

4,4 – 1,3 = 3,1

och

4,4 + 2 ( 1,3 ) = 7,0

Så intervallet 3,1 ≤ x ≤ 7,0 ligger faktiskt mellan en standardavvikelse under medelvärdet och 2 standardavvikelser över medelvärdet.

I normalfördelade data ligger ungefär 34 % av värdena mellan medelvärdet och en standardavvikelse under medelvärdet och 34 % mellan medelvärdet och en standardavvikelse över medelvärdet.

Dessutom ligger 13,5 % av värdena mellan den första och andra standardavvikelsen över medelvärdet.

Genom att addera områdena får vi 34 % + 34 % + 13,5 % = 81,5 % .

Därför är sannolikheten att ett slumpmässigt utvalt hallon väger minst 3,1 gm men högst 7,0 gm 81,5 % eller 0,815 .

Exempel 4:

En stad har 330 000 vuxna. Deras längd är normalfördelad med ett medelvärde på 175 cm och en varians på 100 cm 2 .Hur många personer kan du förvänta dig att vara längre än 205 cm?

Variansen för datamängden anges vara 100 cm 2 . Standardavvikelsen är alltså 100 eller 10 cm.

Nu är 175 + 3 ( 10 ) = 205 , så antalet personer som är längre än 205 cm motsvarar den delmängd av data som ligger mer än 3 standardavvikelser över medelvärdet.

Grafen ovan visar att detta motsvarar ungefär 0,15 % av uppgifterna. Denna procentsats är dock ungefärlig, och i det här fallet behöver vi mer precision. Den faktiska procentsatsen, korrekt med fyra decimaler, är 0,1318 % .

330 , 000 × 0,001318 ≈ 435

Det kommer alltså att finnas ungefär 435 personer i staden som är längre än 205 cm.

Lämna ett svar

Din e-postadress kommer inte publiceras.