Uma distribuição normal é uma distribuição de probabilidade comum . Ela tem uma forma frequentemente referida como uma “curva do sino”.
Muitos conjuntos de dados diários normalmente seguem uma distribuição normal: por exemplo, as alturas dos humanos adultos, os resultados de um teste dado a uma grande classe, erros nas medições.
A distribuição normal é sempre simétrica em relação à média.
O desvio padrão é a medida de como se espalha um conjunto de dados normalmente distribuído. É uma estatística que informa o quão próximo todos os exemplos estão reunidos em torno da média em um conjunto de dados. A forma de uma distribuição normal é determinada pela média e pelo desvio padrão. Quanto mais inclinada for a curva do sino, menor será o desvio padrão. Se os exemplos estiverem muito afastados, a curva do sino será muito mais plana, o que significa que o desvio padrão é grande.
Em geral, cerca de 68% da área sob uma curva de distribuição normal está dentro de um desvio padrão da média.
Isto é, se x ¯ é a média e σ é o desvio padrão da distribuição, então 68 % dos valores caem na faixa entre ( x ¯ – σ ) e ( x ¯ + σ ) . Na figura abaixo, isto corresponde à região sombreada a rosa.
Cerca de 95% dos valores estão dentro de dois desvios padrão da média, ou seja, entre ( x ¯ – 2 σ ) e ( x ¯ + 2 σ ) .
(Na figura, esta é a soma das regiões rosa e azul: 34 % + 34 % + 13.5 % + 13.5 % = 95 % .)
Cerca de 99,7 % dos valores estão dentro de três desvios padrão da média, ou seja, entre ( x ¯ – 3 σ ) e ( x ¯ + 3 σ ) .
(As regiões rosa, azul e verde na figura.)
(Note que estes valores são aproximados.)
Exemplo 1:
Um conjunto de dados é normalmente distribuído com uma média de 5 . Que percentagem dos dados é inferior a 5 ?
Uma distribuição normal é simétrica em relação à média. Assim, metade dos dados será menor que a média e metade dos dados será maior que a média.
Portanto, 50% dos dados são inferiores a 5 .
Exemplo 2:
A duração de uma bateria de telemóvel totalmente carregada é normalmente distribuída com uma média de 14 horas com um desvio padrão de 1 hora. Qual é a probabilidade de uma bateria durar pelo menos 13 horas?
A média é 14 e o desvio padrão é 1 .
50% da distribuição normal fica à direita da média, portanto 50% do tempo, a bateria vai durar mais de 14 horas.
O intervalo de 13 a 14 horas representa um desvio padrão à esquerda da média. Assim, cerca de 34% do tempo, a bateria irá durar entre 13 e 14 horas.
Portanto, a probabilidade de a bateria durar pelo menos 13 horas é de cerca de 34% + 50% ou 0,84 .
Exemplo 3:
O peso médio de uma framboesa é de 4,4 gm com um desvio padrão de 1,3 gm. Qual é a probabilidade de uma framboesa escolhida aleatoriamente pesar pelo menos 3,1 gm mas não mais do que 7,0 gm?
A média é 4,4 e o desvio padrão é 1,3 .
Note que
4,4 – 1,3 = 3,1
e
4,4 + 2 ( 1,3 ) = 7,0
Então, o intervalo 3,1 ≤ x ≤ 7,0 está na verdade entre um desvio padrão abaixo da média e 2 desvios padrão acima da média.
Nos dados normalmente distribuídos, cerca de 34% dos valores estão entre a média e um desvio padrão abaixo da média, e 34% entre a média e um desvio padrão acima da média.
Além disso, 13,5% dos valores estão entre o primeiro e o segundo desvio padrão acima da média.
Adicionando as áreas, obtemos 34 % + 34 % + 13,5 % = 81,5 % .
Portanto, a probabilidade de uma framboesa selecionada aleatoriamente pesar pelo menos 3,1 gm mas não mais do que 7,0 gm é de 81,5 % ou 0,815 .
Exemplo 4:
Uma cidade tem 330.000 adultos. As suas alturas são normalmente distribuídas com uma média de 175 cm e uma variação de 100 cm 2 .Quantas pessoas esperaria que fossem mais altas do que 205 cm?
A variância do conjunto de dados é dada como sendo de 100 cm 2 . Portanto, o desvio padrão é de 100 ou 10 cm.
Agora, 175 + 3 ( 10 ) = 205 , então o número de pessoas mais alto que 205 cm corresponde ao subconjunto de dados que está mais de 3 desvios padrão acima da média.
O gráfico acima mostra que isto representa cerca de 0,15 % dos dados. No entanto, esta percentagem é aproximada e, neste caso, precisamos de mais precisão. A percentagem real, correcta até 4 casas decimais, é de 0,1318 % .
330 , 000 × 0,001318 ≈ 435
Portanto, haverá cerca de 435 pessoas na cidade com mais de 205 cm de altura.