A normális eloszlás egy általános valószínűségi eloszlás . Az alakját gyakran “haranggörbének” nevezik.
Sok mindennapi adathalmaz jellemzően normális eloszlást követ: például a felnőtt emberek magassága, egy nagy csoportnak adott teszt pontszámai, mérési hibák.
A normális eloszlás mindig szimmetrikus az átlag körül.
A szórás annak a mértéke, hogy egy normális eloszlású adathalmaz mennyire szóródik. Ez egy olyan statisztika, amely megmondja, hogy egy adathalmazban az összes példa milyen szorosan gyűlik az átlag körül. A normális eloszlás alakját az átlag és a szórás határozza meg. Minél meredekebb a haranggörbe, annál kisebb a szórás. Ha a példák messze szóródnak egymástól, a haranggörbe sokkal laposabb lesz, ami azt jelenti, hogy a szórás nagy.
Általában a normális eloszlás görbéje alatti terület körülbelül 68 %-a az átlagtól számított egy szóráson belül van.
Azaz, ha x ¯ az átlag és σ az eloszlás szórása, akkor az értékek 68 %-a az ( x ¯ – σ ) és ( x ¯ + σ ) közötti tartományba esik. Az alábbi ábrán ez a rózsaszínnel árnyékolt területnek felel meg.
Az értékek körülbelül 95 %-a az átlag két szórásán belül, azaz ( x ¯ – 2 σ ) és ( x ¯ + 2 σ ) között van.
(Az ábrán ez a rózsaszín és kék tartományok összege: 34 % + 34 % + 13.5 % + 13.5 % = 95 % .)
Az értékek mintegy 99,7 %-a az átlag három szórásán belül, azaz ( x ¯ – 3 σ ) és ( x ¯ + 3 σ ) között van.
(A rózsaszín, kék és zöld tartományok az ábrán.)
(Megjegyzendő, hogy ezek az értékek közelítő értékek.)
1. példa:
Egy adathalmaz normális eloszlású, átlaga 5 . Az adatok hány százaléka kisebb 5-nél ?
A normális eloszlás az átlag körül szimmetrikus. Tehát az adatok fele kisebb lesz az átlagnál, fele pedig nagyobb az átlagnál.
Ezért az adatok 50 százaléka kisebb, mint 5 .
2. példa:
Egy teljesen feltöltött mobiltelefon akkumulátorának élettartama normális eloszlású, átlaga 14 óra, szórása 1 óra. Mekkora a valószínűsége annak, hogy az akkumulátor legalább 13 órát bírja?
Az átlag 14, a szórás pedig 1 .
A normális eloszlás 50 %-a az átlagtól jobbra esik, tehát az esetek 50 %-ában az akkumulátor 14 óránál tovább bírja.
A 13 és 14 óra közötti intervallum egy szórással balra van az átlagtól. Tehát az esetek körülbelül 34%-ában az akkumulátor 13 és 14 óra között fog tartani.
Ezért annak valószínűsége, hogy az akkumulátor legalább 13 órát bírja, körülbelül 34 % + 50 % vagy 0,84 .
3. példa:
A málna átlagos tömege 4,4 g, a szórás 1,3 g. Mennyi annak a valószínűsége, hogy egy véletlenszerűen kiválasztott málna súlya legalább 3,1 gm, de legfeljebb 7,0 gm?
Az átlag 4,4 gm, a szórás pedig 1,3 gm .
Megjegyezzük, hogy
4,4 – 1,3 = 3,1
és
4,4 + 2 ( 1,3 ) = 7,0
Tehát a 3,1 ≤ x ≤ 7,0 intervallum valójában az átlag alatti egy és az átlag feletti 2 standard eltérés között van.
Normál eloszlású adatokban az értékek körülbelül 34%-a az átlag és az átlag alatti egy szórással, 34%-a pedig az átlag és az átlag feletti egy szórással található.
Ezen kívül az értékek 13,5 %-a az átlag feletti első és második szórás között helyezkedik el.
A területeket összeadva megkapjuk: 34 % + 34 % + 13,5 % = 81,5 % .
Tehát annak a valószínűsége, hogy egy véletlenszerűen kiválasztott málna súlya legalább 3,1 g, de legfeljebb 7,0 g, 81,5 % vagy 0,815 .
4. példa:
Egy városban 330 000 felnőtt él. Magasságuk normális eloszlású, átlaga 175 cm, szórása 100 cm 2. Hány ember várhatóan magasabb 205 cm-nél?
Az adathalmaz szórása adott esetben 100 cm 2 . Tehát a szórás 100 vagy 10 cm.
Most 175 + 3 ( 10 ) = 205 , tehát a 205 cm-nél magasabb emberek száma az adatok azon részhalmazának felel meg, amely több mint 3 szórással az átlag felett van.
A fenti grafikon szerint ez az adatok körülbelül 0,15 %-át jelenti. Ez a százalékos arány azonban közelítő, és ebben az esetben nagyobb pontosságra van szükségünk. A tényleges, 4 tizedesjegyre pontos százalékos arány 0,1318 % .
330 , 000 × 0,001318 ≈ 435
Tehát a városban körülbelül 435 olyan ember lesz, aki 205 cm-nél magasabb.