Normalverteilung von Daten

Eine Normalverteilung ist eine allgemeine Wahrscheinlichkeitsverteilung. Sie hat eine Form, die oft als „Glockenkurve“ bezeichnet wird.

Viele alltägliche Datensätze folgen typischerweise einer Normalverteilung: z. B. die Körpergröße erwachsener Menschen, die Ergebnisse eines Tests in einer großen Klasse, Messfehler.

Die Normalverteilung ist immer symmetrisch um den Mittelwert.

Die Standardabweichung ist das Maß dafür, wie weit eine normalverteilte Datenmenge gestreut ist. Sie ist eine Statistik, die angibt, wie dicht alle Beispiele um den Mittelwert in einem Datensatz versammelt sind. Die Form einer Normalverteilung wird durch den Mittelwert und die Standardabweichung bestimmt. Je steiler die Glockenkurve ist, desto geringer ist die Standardabweichung. Wenn die Beispiele weit auseinander liegen, ist die Glockenkurve viel flacher, d.h. die Standardabweichung ist groß.

Im Allgemeinen liegen etwa 68 % der Fläche unter einer Normalverteilungskurve innerhalb einer Standardabweichung vom Mittelwert.

Das heißt, wenn x ¯ der Mittelwert und σ die Standardabweichung der Verteilung ist, dann fallen 68 % der Werte in den Bereich zwischen ( x ¯ – σ ) und ( x ¯ + σ ) . In der folgenden Abbildung entspricht dies dem rosa schattierten Bereich.

Etwa 95 % der Werte liegen innerhalb von zwei Standardabweichungen vom Mittelwert, also zwischen ( x ¯ – 2 σ ) und ( x ¯ + 2 σ ) .

(In der Abbildung ist dies die Summe der rosa und blauen Bereiche: 34 % + 34 % + 13.5 % + 13.5 % = 95 % .)

Etwa 99,7 % der Werte liegen innerhalb von drei Standardabweichungen vom Mittelwert, also zwischen ( x ¯ – 3 σ ) und ( x ¯ + 3 σ ) .

(Die rosafarbenen, blauen und grünen Bereiche in der Abbildung.)

(Beachten Sie, dass diese Werte Näherungswerte sind.)

Beispiel 1:

Eine Reihe von Daten ist normalverteilt mit einem Mittelwert von 5 . Wie viel Prozent der Daten sind kleiner als 5 ?

Eine Normalverteilung ist symmetrisch um den Mittelwert. Das heißt, die Hälfte der Daten ist kleiner als der Mittelwert und die Hälfte der Daten ist größer als der Mittelwert.

Daher sind 50 % der Daten kleiner als 5 .

Beispiel 2:

Die Lebensdauer eines voll aufgeladenen Handy-Akkus ist normalverteilt mit einem Mittelwert von 14 Stunden und einer Standardabweichung von 1 Stunde. Wie groß ist die Wahrscheinlichkeit, dass ein Akku mindestens 13 Stunden hält?

Der Mittelwert ist 14 und die Standardabweichung ist 1 .

50 % der Normalverteilung liegen rechts vom Mittelwert, also hält die Batterie in 50 % der Fälle länger als 14 Stunden.

Das Intervall von 13 bis 14 Stunden entspricht einer Standardabweichung links vom Mittelwert. In etwa 34 % der Zeit hält der Akku also zwischen 13 und 14 Stunden.

Die Wahrscheinlichkeit, dass die Batterie mindestens 13 Stunden hält, beträgt also etwa 34 % + 50 % oder 0,84 .

Beispiel 3:

Das durchschnittliche Gewicht einer Himbeere beträgt 4,4 g mit einer Standardabweichung von 1,3 g. Wie groß ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Himbeere mindestens 3,1 gm, aber nicht mehr als 7,0 gm wiegen würde?

Der Mittelwert ist 4,4 und die Standardabweichung ist 1,3 .

Beachte, dass

4,4 – 1,3 = 3,1

und

4,4 + 2 ( 1,3 ) = 7,0

Das Intervall 3,1 ≤ x ≤ 7,0 liegt also tatsächlich zwischen einer Standardabweichung unter dem Mittelwert und 2 Standardabweichungen über dem Mittelwert.

Bei normalverteilten Daten liegen etwa 34 % der Werte zwischen dem Mittelwert und einer Standardabweichung unter dem Mittelwert, und 34 % zwischen dem Mittelwert und einer Standardabweichung über dem Mittelwert.

Darüber hinaus liegen 13,5 % der Werte zwischen der ersten und zweiten Standardabweichung über dem Mittelwert.

Addiert man die Flächen, erhält man 34 % + 34 % + 13,5 % = 81,5 % .

Die Wahrscheinlichkeit, dass eine zufällig ausgewählte Himbeere mindestens 3,1 g, aber nicht mehr als 7,0 g wiegt, beträgt also 81,5 % oder 0,815 .

Beispiel 4:

Eine Stadt hat 330.000 Erwachsene. Ihre Körpergröße ist normalverteilt mit einem Mittelwert von 175 cm und einer Varianz von 100 cm 2 . Wie viele Personen sind voraussichtlich größer als 205 cm?

Die Varianz des Datensatzes wird mit 100 cm 2 angegeben. Die Standardabweichung beträgt also 100 oder 10 cm.

Nun, 175 + 3 ( 10 ) = 205 , also entspricht die Anzahl der Personen, die größer als 205 cm sind, der Teilmenge der Daten, die mehr als 3 Standardabweichungen über dem Mittelwert liegt.

Das obige Diagramm zeigt, dass dies etwa 0,15 % der Daten ausmacht. Dieser Prozentsatz ist jedoch ein Näherungswert, und in diesem Fall benötigen wir mehr Präzision. Der tatsächliche Prozentsatz, auf 4 Dezimalstellen genau, beträgt 0,1318 % .

330 , 000 × 0,001318 ≈ 435

Es gibt also etwa 435 Menschen in der Stadt, die größer als 205 cm sind.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.