Normální rozdělení je běžné rozdělení pravděpodobnosti . Má tvar často označovaný jako „zvonová křivka“.
Mnoho souborů dat z každodenního života se obvykle řídí normálním rozdělením: například výška dospělých lidí, výsledky v testu zadaném velké třídě, chyby v měření.
Normální rozdělení je vždy symetrické kolem průměru.
Směrodatná odchylka je mírou toho, jak je normálně rozdělený soubor dat rozprostřen. Je to statistika, která říká, jak těsně jsou všechny příklady v souboru dat shromážděny kolem průměru. Tvar normálního rozdělení je určen střední hodnotou a směrodatnou odchylkou. Čím strmější je zvonová křivka, tím menší je směrodatná odchylka. Pokud jsou příklady rozptýleny daleko od sebe, bude zvonová křivka mnohem plošší, což znamená, že směrodatná odchylka je velká.
Obecně platí, že přibližně 68 % plochy pod křivkou normálního rozdělení leží uvnitř jedné směrodatné odchylky od průměru.
To znamená, že pokud x¯ je střední hodnota a σ je směrodatná odchylka rozdělení, pak 68 % hodnot spadá do intervalu mezi ( x¯ – σ ) a ( x¯ + σ ) . Na obrázku níže to odpovídá růžově vystínované oblasti.
Přibližně 95 % hodnot leží v rozmezí dvou směrodatných odchylek od průměru, tj. mezi ( x – 2 σ ) a ( x – + 2 σ ) .
(Na obrázku je to součet růžové a modré oblasti: 34 % + 34 % + 13.5 % + 13.5 % = 95 % .)
Přibližně 99,7 % hodnot leží v rozmezí tří směrodatných odchylek od průměru, tj. mezi ( x – 3 σ ) a ( x – + 3 σ ) .
(Růžová, modrá a zelená oblast na obrázku.)
(Všimněte si, že tyto hodnoty jsou přibližné.)
Příklad 1 :
Soubor dat je normálně rozdělený se střední hodnotou 5 . Kolik procent dat je menších než 5 ?
Normální rozdělení je symetrické kolem střední hodnoty. Polovina dat tedy bude menší než průměr a polovina dat bude větší než průměr.
Proto je 50 % procent dat menších než 5 .
Příklad 2: Jaký je průměr?
Životnost plně nabité baterie mobilního telefonu je normálně rozdělená se střední hodnotou 14 hodin se směrodatnou odchylkou 1 hodina. Jaká je pravděpodobnost, že baterie vydrží alespoň 13 hodin?
Střední hodnota je 14 a směrodatná odchylka je 1 .
50 % normálního rozdělení leží napravo od průměru, takže v 50 % případů baterie vydrží déle než 14 hodin.
Interval od 13 do 14 hodin představuje jednu směrodatnou odchylku vlevo od průměru. Přibližně ve 34 % případů tedy baterie vydrží mezi 13 a 14 hodinami.
Pravděpodobnost, že baterie vydrží alespoň 13 hodin, je tedy přibližně 34 % + 50 % neboli 0,84 .
Příklad 3:
Průměrná hmotnost maliny je 4,4 gm se směrodatnou odchylkou 1,3 gm. Jaká je pravděpodobnost, že náhodně vybraná malina bude vážit alespoň 3,1 gm, ale ne více než 7,0 gm?
Průměrná hodnota je 4,4 g a směrodatná odchylka je 1,3 g .
Všimněte si, že
4,4 – 1,3 = 3,1
a
4,4 + 2 ( 1,3 ) = 7,0
Takže interval 3,1 ≤ x ≤ 7,0 je vlastně mezi jednou směrodatnou odchylkou pod průměrem a 2 směrodatnými odchylkami nad průměrem.
V normálně rozložených datech leží přibližně 34 % hodnot mezi průměrem a jednou směrodatnou odchylkou pod průměrem a 34 % mezi průměrem a jednou směrodatnou odchylkou nad průměrem.
Kromě toho leží 13,5 % hodnot mezi první a druhou směrodatnou odchylkou nad průměrem.
Sečteme-li plochy, dostaneme 34 % + 34 % + 13,5 % = 81,5 % .
Pravděpodobnost, že náhodně vybraná malina bude vážit alespoň 3,1 gm, ale ne více než 7,0 gm, je tedy 81,5 % neboli 0,815 .
Příklad 4:
Město má 330 000 dospělých obyvatel. Jejich výška je normálně rozdělena se střední hodnotou 175 cm a rozptylem 100 cm 2 . kolik lidí by mělo být vyšších než 205 cm?
Je dáno, že rozptyl souboru dat je 100 cm 2 . Směrodatná odchylka je tedy 100 nebo 10 cm.
Nyní platí, že 175 + 3 ( 10 ) = 205 , takže počet lidí vyšších než 205 cm odpovídá podsouboru dat, který leží více než 3 směrodatné odchylky nad průměrem.
Z výše uvedeného grafu vyplývá, že to představuje přibližně 0,15 % dat. Toto procento je však přibližné a v tomto případě potřebujeme větší přesnost. Skutečné procento s přesností na 4 desetinná místa je 0,1318 % .
330 , 000 × 0,001318 ≈ 435
Ve městě tedy bude asi 435 lidí vyšších než 205 cm.