Az adatok normális eloszlása

A normális eloszlás egy általános valószínűségi eloszlás . Az alakját gyakran “haranggörbének” nevezik.

Sok mindennapi adathalmaz jellemzően normális eloszlást követ: például a felnőtt emberek magassága, egy nagy csoportnak adott teszt pontszámai, mérési hibák.

A normális eloszlás mindig szimmetrikus az átlag körül.

A szórás annak a mértéke, hogy egy normális eloszlású adathalmaz mennyire szóródik. Ez egy olyan statisztika, amely megmondja, hogy egy adathalmazban az összes példa milyen szorosan gyűlik az átlag körül. A normális eloszlás alakját az átlag és a szórás határozza meg. Minél meredekebb a haranggörbe, annál kisebb a szórás. Ha a példák messze szóródnak egymástól, a haranggörbe sokkal laposabb lesz, ami azt jelenti, hogy a szórás nagy.

Általában a normális eloszlás görbéje alatti terület körülbelül 68 %-a az átlagtól számított egy szóráson belül van.

Azaz, ha x ¯ az átlag és σ az eloszlás szórása, akkor az értékek 68 %-a az ( x ¯ – σ ) és ( x ¯ + σ ) közötti tartományba esik. Az alábbi ábrán ez a rózsaszínnel árnyékolt területnek felel meg.

Az értékek körülbelül 95 %-a az átlag két szórásán belül, azaz ( x ¯ – 2 σ ) és ( x ¯ + 2 σ ) között van.

(Az ábrán ez a rózsaszín és kék tartományok összege: 34 % + 34 % + 13.5 % + 13.5 % = 95 % .)

Az értékek mintegy 99,7 %-a az átlag három szórásán belül, azaz ( x ¯ – 3 σ ) és ( x ¯ + 3 σ ) között van.

(A rózsaszín, kék és zöld tartományok az ábrán.)

(Megjegyzendő, hogy ezek az értékek közelítő értékek.)

1. példa:

Egy adathalmaz normális eloszlású, átlaga 5 . Az adatok hány százaléka kisebb 5-nél ?

A normális eloszlás az átlag körül szimmetrikus. Tehát az adatok fele kisebb lesz az átlagnál, fele pedig nagyobb az átlagnál.

Ezért az adatok 50 százaléka kisebb, mint 5 .

2. példa:

Egy teljesen feltöltött mobiltelefon akkumulátorának élettartama normális eloszlású, átlaga 14 óra, szórása 1 óra. Mekkora a valószínűsége annak, hogy az akkumulátor legalább 13 órát bírja?

Az átlag 14, a szórás pedig 1 .

A normális eloszlás 50 %-a az átlagtól jobbra esik, tehát az esetek 50 %-ában az akkumulátor 14 óránál tovább bírja.

A 13 és 14 óra közötti intervallum egy szórással balra van az átlagtól. Tehát az esetek körülbelül 34%-ában az akkumulátor 13 és 14 óra között fog tartani.

Ezért annak valószínűsége, hogy az akkumulátor legalább 13 órát bírja, körülbelül 34 % + 50 % vagy 0,84 .

3. példa:

A málna átlagos tömege 4,4 g, a szórás 1,3 g. Mennyi annak a valószínűsége, hogy egy véletlenszerűen kiválasztott málna súlya legalább 3,1 gm, de legfeljebb 7,0 gm?

Az átlag 4,4 gm, a szórás pedig 1,3 gm .

Megjegyezzük, hogy

4,4 – 1,3 = 3,1

és

4,4 + 2 ( 1,3 ) = 7,0

Tehát a 3,1 ≤ x ≤ 7,0 intervallum valójában az átlag alatti egy és az átlag feletti 2 standard eltérés között van.

Normál eloszlású adatokban az értékek körülbelül 34%-a az átlag és az átlag alatti egy szórással, 34%-a pedig az átlag és az átlag feletti egy szórással található.

Ezen kívül az értékek 13,5 %-a az átlag feletti első és második szórás között helyezkedik el.

A területeket összeadva megkapjuk: 34 % + 34 % + 13,5 % = 81,5 % .

Tehát annak a valószínűsége, hogy egy véletlenszerűen kiválasztott málna súlya legalább 3,1 g, de legfeljebb 7,0 g, 81,5 % vagy 0,815 .

4. példa:

Egy városban 330 000 felnőtt él. Magasságuk normális eloszlású, átlaga 175 cm, szórása 100 cm 2. Hány ember várhatóan magasabb 205 cm-nél?

Az adathalmaz szórása adott esetben 100 cm 2 . Tehát a szórás 100 vagy 10 cm.

Most 175 + 3 ( 10 ) = 205 , tehát a 205 cm-nél magasabb emberek száma az adatok azon részhalmazának felel meg, amely több mint 3 szórással az átlag felett van.

A fenti grafikon szerint ez az adatok körülbelül 0,15 %-át jelenti. Ez a százalékos arány azonban közelítő, és ebben az esetben nagyobb pontosságra van szükségünk. A tényleges, 4 tizedesjegyre pontos százalékos arány 0,1318 % .

330 , 000 × 0,001318 ≈ 435

Tehát a városban körülbelül 435 olyan ember lesz, aki 205 cm-nél magasabb.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.