Normalfordeling af data

En normalfordeling er en almindelig sandsynlighedsfordeling . Den har en form, der ofte omtales som en “klokkekurve”.

Mange dagligdags datasæt følger typisk en normalfordeling: f.eks. voksne menneskers højde, pointtal i en test, der er givet til en stor klasse, fejl i målinger.

Den normale fordeling er altid symmetrisk omkring middelværdien.

Standardafvigelsen er et mål for, hvor spredt et normalfordelt datasæt er. Det er en statistik, der fortæller, hvor tæt alle eksemplerne er samlet omkring middelværdien i et datasæt. Formen af en normalfordeling bestemmes af middelværdien og standardafvigelsen. Jo stejlere klokkekurven er, jo mindre er standardafvigelsen. Hvis eksemplerne er spredt langt fra hinanden, vil klokkekurven være meget fladere, hvilket betyder, at standardafvigelsen er stor.

Generelt ligger ca. 68 % af arealet under en normalfordelingskurve inden for en standardafvigelse fra middelværdien.

Det vil sige, at hvis x ¯ er middelværdien og σ er fordelingens standardafvigelse, så ligger 68 % af værdierne inden for intervallet mellem ( x ¯ – σ ) og ( x ¯ + σ ) . I nedenstående figur svarer dette til det lyserødt skraverede område.

Omkring 95 % af værdierne ligger inden for to standardafvigelser fra middelværdien, dvs. mellem ( x ¯ – 2 σ ) og ( x ¯ + 2 σ ) .

(I figuren er dette summen af de lyserøde og blå områder: 34 % + 34 % + 13.5 % + 13.5 % = 95 % .)

Omkring 99,7 % af værdierne ligger inden for tre standardafvigelser fra middelværdien, dvs. mellem ( x ¯ – 3 σ ) og ( x ¯ + 3 σ ) .

(De lyserøde, blå og grønne områder i figuren.)

(Bemærk, at disse værdier er omtrentlige.)

Eksempel 1:

Et datasæt er normalfordelt med en middelværdi på 5 . Hvor stor en procentdel af dataene er mindre end 5 ?

En normalfordeling er symmetrisk omkring middelværdien. Så halvdelen af dataene vil være mindre end gennemsnittet, og halvdelen af dataene vil være større end gennemsnittet.

Derfor er 50 % procent af dataene mindre end 5 .

Eksempel 2:

Levetiden for et fuldt opladet mobiltelefonbatteri er normalfordelt med en middelværdi på 14 timer med en standardafvigelse på 1 time. Hvad er sandsynligheden for, at et batteri holder i mindst 13 timer?

Middelværdien er 14, og standardafvigelsen er 1 .

50 % af normalfordelingen ligger til højre for middelværdien, så 50 % af tiden vil batteriet holde længere end 14 timer.

Intervallet fra 13 til 14 timer repræsenterer en standardafvigelse til venstre for middelværdien. Så ca. 34 % af tiden vil batteriet holde mellem 13 og 14 timer.

Derfor er sandsynligheden for, at batteriet holder mindst 13 timer, ca. 34 % + 50 % eller 0,84 .

Eksempel 3:

Den gennemsnitlige vægt af et hindbær er 4,4 gm med en standardafvigelse på 1,3 gm. Hvad er sandsynligheden for, at et tilfældigt udvalgt hindbær vejer mindst 3,1 gm, men højst 7,0 gm?

Middelværdien er 4,4 og standardafvigelsen er 1,3 .

Bemærk, at

4,4 – 1,3 = 3,1

og

4,4 + 2 ( 1,3 ) = 7,0

Så intervallet 3,1 ≤ x ≤ 7,0 ligger faktisk mellem en standardafvigelse under middelværdien og 2 standardafvigelser over middelværdien.

I normalfordelte data ligger ca. 34 % af værdierne mellem middelværdien og en standardafvigelse under middelværdien og 34 % mellem middelværdien og en standardafvigelse over middelværdien.

Desuden ligger 13,5 % af værdierne mellem den første og den anden standardafvigelse over middelværdien.

Ved at lægge arealerne sammen får vi 34 % + 34 % + 13,5 % = 81,5 % .

Sandsynligheden for, at et tilfældigt udvalgt hindbær vejer mindst 3,1 gm, men højst 7,0 gm, er derfor 81,5 % eller 0,815 .

Eksempel 4:

En by har 330.000 voksne. Deres højder er normalfordelte med en middelværdi på 175 cm og en varians på 100 cm 2 .Hvor mange personer vil man forvente at være højere end 205 cm?

Variansen i datasættet er givet til at være 100 cm 2 . Standardafvigelsen er altså 100 eller 10 cm.

Nu er 175 + 3 ( 10 ) = 205 , så antallet af personer, der er højere end 205 cm, svarer til den delmængde af data, der ligger mere end 3 standardafvigelser over middelværdien.

Ovenstående graf viser, at dette udgør ca. 0,15 % af dataene. Denne procentsats er imidlertid omtrentlig, og i dette tilfælde har vi brug for mere præcision. Den faktiske procentdel, korrekt med 4 decimaler, er 0,1318 % .

330 , 000 × 0,001318 ≈ 435

Der vil altså være ca. 435 personer i byen, der er højere end 205 cm.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.