データの正規分布

正規分布は、一般的な確率分布です。 よく “ベルカーブ “と呼ばれる形状をしている。

多くの日常的なデータセットは一般的に正規分布に従う: 例えば、成人した人間の身長、大きなクラスに与えられたテストのスコア、測定値の誤差などである。

標準偏差は、正規分布のデータセットがどの程度広がっているかを示す尺度である。 これは、データセットにおいて、すべての例が平均の周りにどれだけ密接に集まっているかを示す統計量である。 正規分布の形状は、平均と標準偏差で決まります。 ベルカーブが急であればあるほど、標準偏差は小さくなります。 例題が遠くに分散している場合、ベルカーブはより平坦になり、標準偏差が大きくなることを意味します。

一般に、正規分布曲線の下の面積の約68%は平均の1標準偏差の範囲内にある。

つまり、x ¯を平均値、σを分布の標準偏差とすると、値の68 %は ( x¯ – σ ) と ( x¯ + σ ) の間の範囲に収まります。 下図では、ピンクの網掛けの部分がこれに相当する。

約95 %の値が平均値から2標準偏差以内、つまり ( x ¯ – 2 σ ) から ( x ¯ + 2 σ ) の間にあることがわかります。

(図中、ピンクと青の領域の合計値。 34 % + 34 % + 13.5 % + 13.5 % = 95 % .)

約99.7 %の値が平均値から3標準偏差以内、つまり ( x ¯ – 3 σ ) と ( x ¯ + 3 σ ) の間に収まっている。

(図中のピンク、青、緑の領域)

(数値は概算であることに注意)

例1:

一組のデータが平均値5で正規分布している。 データの何パーセントが5より小さいか。

正規分布は平均値に対して対称である。 したがって、データの半分は平均より小さく、半分は平均より大きくなる。

したがって、データの50 %は5より小さい。

例2:

フル充電された携帯電話の電池の寿命は平均14時間、標準偏差1時間の正規分布である。 電池の寿命が13時間以上である確率は何%か。

平均は14で、標準偏差は1である。

正規分布の50%は平均の右側にあるので、50%の確率で電池は14時間以上持つことになる。

13時間から14時間までの区間は、平均の左側にある標準偏差の1つを表します。 したがって、約34%の確率で、バッテリーは13時間から14時間の間に持ちこたえます。

したがって、バッテリーが少なくとも13時間持続する確率は、約34 % + 50 %または0.84 。

例3:

ラズベリーの平均重量は4.4 gm、標準偏差は1.3 gmである。 無作為に選んだラズベリーの重量が3.1gm以上7.0gm以下である確率は何%か。

平均は4.4で標準偏差は1.3である.

4.4 – 1.3 = 3.1

4.4 + 2 ( 1.3 ) = 7.0

ですから、3.1 ≦ x ≦ 7.0 という間隔は、実際には平均より1標準偏差下から、平均より2標準偏差上の間と言えますね。

正規分布のデータでは、値の約34%は平均と平均より1つ下の標準偏差の間にあり、平均と平均より1つ上の標準偏差の間には34%の値があります。

また、平均から1つ上の標準偏差と2つ上の標準偏差の間には、13.5%の値が存在する。

これらの面積を足すと、34 % + 34 % + 13.5 % = 81.5 % となります。

したがって、ランダムに選んだラズベリーが3.1 gm以上7.0 gm以下である確率は 81.5 % または 0.815 .

例4:

ある町には33万人の成人がいる。 彼らの身長は平均175cm、分散100cm2の正規分布である。 .身長が205cmより高い人は何人いると思うか。

データセットの分散は100 cm 2 と与えられる。 ですから、標準偏差は100または10cmです。

さて、175 + 3 ( 10 ) = 205 ですから、205cmより背の高い人の数は、平均より3標準偏差以上上にあるデータの部分集合に対応します。

上のグラフから、これはデータの約0.15%に相当することがわかります。 しかし、この割合はおおよそのもので、この場合、より正確さが必要です。 実際のパーセンテージは、小数点以下4桁まで正しく、0.1318 % です。

330 , 000 × 0.001318 ≒ 435

ということは、この町には205cm以上の身長の人が約435人いることになりますね。

コメントを残す

メールアドレスが公開されることはありません。