Q. 分散ってなに?どうしてデータ分析で使うの?
A. データの「ばらつきの大きさ」を表す指標です。平均だけじゃ見えないデータの特徴がわかります。
たとえば、次の2つのクラスのテストの平均点はどちらも「70点」だったとします。
クラスA | クラスB |
---|---|
60 | 50 |
70 | 70 |
80 | 90 |
どちらも同じ平均点ですが、よく見るとクラスBの方が高得点と低得点の差が大きく、「ばらつき」があるがあることがわかります。
この「ばらつきの大きさ」を数値で表したものが分散です。
分散が大きいほど、データは平均から離れた値が多く、小さいほど平均に近い値が多いことを意味します。
Q. 分散ってどうやって計算するの?
A. 各データの「平均からの差」を2乗して、それらの平均をとります。
手順はこんな感じです(クラスAの例):
- 平均を求める:
(60 + 70 + 80) ÷ 3 = 70 - 各点数と平均の差を求める:
60−70 = −10、70−70 = 0、80−70 = 10 - 差を2乗する:
(−10)² = 100、0² = 0、10² = 100 - その平均を出す:
(100 + 0 + 100) ÷ 3 = 66.67
この 66.67 が、クラスAの分散です。
(※「標本分散」の場合は3ではなく、n−1の2で割ります)
Q. 分散はどんなときに使うの?
A. データの安定性やリスクを見たいときに使います。
例えば:
- 学校で「成績が安定しているクラス」を知りたいとき
- 売上データで「毎月のブレの大きさ」を見たいとき
- 投資で「価格がどれくらい動いているか(リスク)」を知りたいとき
平均だけでは「中心」はわかっても、「広がり」はわかりません。
分散を使えば、データの全体像がより立体的に見えるのです。
Q. Excelで分散を出すにはどうしたらいい?
A. 関数 =VAR.S()
や =VAR.P()
を使えば一発です。
=VAR.S(範囲)
→ 標本分散=VAR.P(範囲)
→ 母分散
たとえば、セルA1〜A3に「60, 70, 80」と入力されていたら=VAR.S(A1:A3)
と入力するだけで分散(今回は、「100」)が出せます。

まとめ
用語 | 意味 |
---|---|
平均 | 中心(全体の傾向) |
分散 | ばらつき(どれくらい散らばってるか) |
標準偏差 | 分散の平方根。分散とほぼ同じ意味で使われることも |
分散は「データの安定性」を見るための基本中の基本です。
平均とセットで必ず押さえておきたいポイントになります。
私はよく標準偏差と間違ってしまいそうになりますが、みなさんは間違わないようにしてください。
分散について、詳しく別の記事(標準偏差と分散とは?データのばらつきをExcelで分析する)で説明していますので、ご覧ください。
コメント