Rozkład normalny jest powszechnie stosowanym rozkładem prawdopodobieństwa . Ma on kształt często określany jako „krzywa dzwonowa”.
Wiele codziennych zestawów danych zazwyczaj podąża za rozkładem normalnym: na przykład wysokości dorosłych ludzi, wyniki na teście podanym dużej klasie, błędy w pomiarach.
Rozkład normalny jest zawsze symetryczny względem średniej.
Odchylenie standardowe jest miarą tego, jak bardzo rozłożony jest normalnie rozłożony zestaw danych. Jest to statystyka, która mówi, jak blisko wszystkie przykłady są zebrane wokół średniej w zestawie danych. Kształt rozkładu normalnego jest określany przez średnią i odchylenie standardowe. Im bardziej stroma jest krzywa dzwonowa, tym mniejsze jest odchylenie standardowe. Jeśli przykłady są rozrzucone daleko od siebie, krzywa dzwonowa będzie dużo bardziej płaska, co oznacza, że odchylenie standardowe jest duże.
Ogólnie rzecz biorąc, około 68 % obszaru pod krzywą rozkładu normalnego leży w granicach jednego odchylenia standardowego od średniej.
To znaczy, jeżeli x ż jest średnią, a σ odchyleniem standardowym rozkładu, to 68 % wartości mieści się w przedziale między ( x ż – σ ) a ( x ż + σ ) . Na poniższym rysunku odpowiada to obszarowi zacienionemu na różowo.
Około 95 % wartości leży w granicach dwóch odchyleń standardowych od średniej, to znaczy między ( x ż – 2 σ ) i ( x ż + 2 σ ) .
(Na rysunku jest to suma regionów różowego i niebieskiego: 34 % + 34 % + 13.5 % + 13.5 % = 95 % .)
Około 99,7 % wartości leży w granicach trzech odchyleń standardowych od średniej, czyli między ( x ż – 3 σ ) a ( x ż + 3 σ ) .
(Różowe, niebieskie i zielone regiony na rysunku.)
(Zauważ, że te wartości są przybliżone.)
Przykład 1:
Pewien zbiór danych ma rozkład normalny ze średnią równą 5 . Jaki procent danych jest mniejszy niż 5 ?
Rozkład normalny jest symetryczny względem średniej. Tak więc połowa danych będzie mniejsza od średniej i połowa danych będzie większa od średniej.
Dlatego 50% danych jest mniejszych niż 5 .
Przykład 2:
Żywotność w pełni naładowanej baterii telefonu komórkowego ma rozkład normalny o średniej 14 godzin z odchyleniem standardowym 1 godziny. Jakie jest prawdopodobieństwo, że bateria wytrzyma co najmniej 13 godzin?
Średnia wynosi 14, a odchylenie standardowe 1 .
50% rozkładu normalnego leży na prawo od średniej, więc w 50% przypadków bateria wytrzyma dłużej niż 14 godzin.
Przedział od 13 do 14 godzin reprezentuje jedno odchylenie standardowe na lewo od średniej. Tak więc przez około 34% czasu bateria będzie działać od 13 do 14 godzin.
Dlatego prawdopodobieństwo, że bateria wytrzyma co najmniej 13 godzin wynosi około 34 % + 50 % lub 0,84 .
Przykład 3:
Średnia waga maliny wynosi 4,4 gm z odchyleniem standardowym 1,3 gm. Jakie jest prawdopodobieństwo, że losowo wybrana malina będzie ważyła co najmniej 3,1 gm, ale nie więcej niż 7,0 gm?
Średnia jest równa 4,4 a odchylenie standardowe 1,3 .
Zauważ, że
4.4 – 1.3 = 3.1
i
4.4 + 2 ( 1.3 ) = 7.0
Tak więc przedział 3.1 ≤ x ≤ 7.0 jest w rzeczywistości pomiędzy jednym odchyleniem standardowym poniżej średniej i 2 odchyleniami standardowymi powyżej średniej.
W danych o rozkładzie normalnym około 34% wartości leży między średnią a jednym odchyleniem standardowym poniżej średniej, a 34% między średnią a jednym odchyleniem standardowym powyżej średniej.
Ponadto, 13,5 % wartości leży między pierwszym i drugim odchyleniem standardowym powyżej średniej.
Dodając te obszary otrzymujemy 34 % + 34 % + 13,5 % = 81,5 % .
Dlatego prawdopodobieństwo, że losowo wybrana malina będzie ważyć co najmniej 3,1 gm, ale nie więcej niż 7,0 gm wynosi 81,5 % lub 0,815 .
Przykład 4:
Pewne miasto liczy 330 000 dorosłych osób. Ich wzrost ma rozkład normalny ze średnią 175 cm i wariancją 100 cm 2 .Ile osób spodziewałbyś się mieć wzrost większy niż 205 cm?
Wariancja zbioru danych jest podana jako 100 cm 2 . Zatem odchylenie standardowe wynosi 100 lub 10 cm.
Teraz 175 + 3 ( 10 ) = 205 , więc liczba osób wyższych niż 205 cm odpowiada podzbiorowi danych, który leży więcej niż 3 odchylenia standardowe powyżej średniej.
Z powyższego wykresu wynika, że stanowi to około 0,15 % danych. Procent ten jest jednak przybliżony i w tym przypadku potrzebujemy większej precyzji. Rzeczywisty procent, poprawny do 4 miejsc po przecinku, wynosi 0,1318 % .
330 , 000 × 0,001318 ≈ 435
Zatem w mieście będzie około 435 osób wyższych niż 205 cm.