Una distribución normal es una distribución de probabilidad común . Tiene una forma que a menudo se denomina «curva de campana».
Muchos conjuntos de datos cotidianos suelen seguir una distribución normal: por ejemplo, las alturas de los seres humanos adultos, las puntuaciones en un examen realizado a una clase numerosa, los errores en las mediciones.
La distribución normal es siempre simétrica respecto a la media.
La desviación estándar es la medida de la dispersión de un conjunto de datos distribuidos normalmente. Es una estadística que indica la proximidad de todos los ejemplos alrededor de la media en un conjunto de datos. La forma de una distribución normal viene determinada por la media y la desviación típica. Cuanto más pronunciada sea la curva de campana, menor será la desviación típica. Si los ejemplos están muy separados, la curva de campana será mucho más plana, lo que significa que la desviación estándar es grande.
En general, alrededor del 68 % del área bajo una curva de distribución normal se encuentra dentro de una desviación estándar de la media.
Es decir, si x ¯ es la media y σ es la desviación estándar de la distribución, entonces el 68 % de los valores caen en el rango entre ( x ¯ – σ ) y ( x ¯ + σ ) . En la figura siguiente, esto corresponde a la región sombreada en rosa.
Alrededor del 95 % de los valores se encuentran dentro de dos desviaciones estándar de la media, es decir, entre ( x ¯ – 2 σ ) y ( x ¯ + 2 σ ) .
(En la figura, es la suma de las regiones rosa y azul: 34 % + 34 % + 13.5 % + 13.5 % = 95 % .)
Alrededor del 99,7 % de los valores se encuentran dentro de las tres desviaciones estándar de la media, es decir, entre ( x ¯ – 3 σ ) y ( x ¯ + 3 σ ) .
(Las regiones rosa, azul y verde de la figura.)
(Tenga en cuenta que estos valores son aproximados.)
Ejemplo 1:
Un conjunto de datos se distribuye normalmente con una media de 5 . Qué porcentaje de los datos es menor que 5 ?
Una distribución normal es simétrica respecto a la media. Por tanto, la mitad de los datos serán menores que la media y la mitad de los datos serán mayores que la media.
Por lo tanto, el 50 % de los datos es menor que 5 .
Ejemplo 2:
La vida de la batería de un teléfono móvil completamente cargado se distribuye normalmente con una media de 14 horas con una desviación estándar de 1 hora. Cuál es la probabilidad de que una batería dure al menos 13 horas?
La media es 14 y la desviación típica es 1 .
El 50 % de la distribución normal se encuentra a la derecha de la media, por lo que el 50 % de las veces, la batería durará más de 14 horas.
El intervalo de 13 a 14 horas representa una desviación estándar a la izquierda de la media. Por lo tanto, alrededor del 34 % de las veces, la batería durará entre 13 y 14 horas.
Por lo tanto, la probabilidad de que la batería dure al menos 13 horas es de aproximadamente 34 % + 50 % o 0,84 .
Ejemplo 3:
El peso medio de una frambuesa es de 4,4 gm con una desviación estándar de 1,3 gm. Cuál es la probabilidad de que una frambuesa seleccionada al azar pese al menos 3,1 gm pero no más de 7,0 gm?
La media es 4,4 y la desviación estándar es 1,3 .
Observa que
4,4 – 1,3 = 3,1
y
4,4 + 2 ( 1,3 ) = 7,0
Por tanto, el intervalo 3,1 ≤ x ≤ 7,0 está realmente entre una desviación típica por debajo de la media y 2 desviaciones típicas por encima de la media.
En los datos con distribución normal, aproximadamente el 34 % de los valores se encuentran entre la media y una desviación estándar por debajo de la media, y el 34 % entre la media y una desviación estándar por encima de la media.
Además, el 13,5 % de los valores se encuentran entre la primera y la segunda desviación estándar por encima de la media.
Sumando las áreas, obtenemos 34 % + 34 % + 13,5 % = 81,5 % .
Por tanto, la probabilidad de que una frambuesa seleccionada al azar pese al menos 3,1 gm pero no más de 7,0 gm es del 81,5 % o 0,815 .
Ejemplo 4:
Una ciudad tiene 330.000 adultos. Sus estaturas se distribuyen normalmente con una media de 175 cm y una varianza de 100 cm 2 .¿Cuántas personas se espera que sean más altas de 205 cm?
Se da que la varianza del conjunto de datos es de 100 cm 2 . Por lo tanto, la desviación estándar es 100 o 10 cm.
Ahora, 175 + 3 ( 10 ) = 205 , por lo que el número de personas más altas que 205 cm corresponde al subconjunto de datos que se encuentra más de 3 desviaciones estándar por encima de la media.
El gráfico anterior muestra que esto representa aproximadamente el 0,15 % de los datos. Sin embargo, este porcentaje es aproximado, y en este caso, necesitamos más precisión. El porcentaje real, correcto con 4 decimales, es 0,1318 % .
330 , 000 × 0,001318 ≈ 435
Por lo tanto, en la ciudad habrá unas 435 personas más altas que 205 cm.