Q&Aでわかるデータ分析(No.3 分散)

Q&Aでわかるデータ分析

Q. 分散ってなに?どうしてデータ分析で使うの?

A. データの「ばらつきの大きさ」を表す指標です。平均だけじゃ見えないデータの特徴がわかります。


たとえば、次の2つのクラスのテストの平均点はどちらも「70点」だったとします。

クラスAクラスB
6050
7070
8090

どちらも同じ平均点ですが、よく見るとクラスBの方が高得点と低得点の差が大きく、「ばらつき」があるがあることがわかります。
この「ばらつきの大きさ」を数値で表したものが分散です。
分散が大きいほど、データは平均から離れた値が多く、小さいほど平均に近い値が多いことを意味します。


Q. 分散ってどうやって計算するの?

A. 各データの「平均からの差」を2乗して、それらの平均をとります。

手順はこんな感じです(クラスAの例):

  1. 平均を求める:
     (60 + 70 + 80) ÷ 3 = 70
  2. 各点数と平均の差を求める:
     60−70 = −10、70−70 = 0、80−70 = 10
  3. 差を2乗する:
     (−10)² = 100、0² = 0、10² = 100
  4. その平均を出す:
     (100 + 0 + 100) ÷ 3 = 66.67

この 66.67 が、クラスAの分散です。
(※「標本分散」の場合は3ではなく、n−1の2で割ります)


Q. 分散はどんなときに使うの?

A. データの安定性やリスクを見たいときに使います。

例えば:

  • 学校で「成績が安定しているクラス」を知りたいとき
  • 売上データで「毎月のブレの大きさ」を見たいとき
  • 投資で「価格がどれくらい動いているか(リスク)」を知りたいとき

平均だけでは「中心」はわかっても、「広がり」はわかりません。
分散を使えば、データの全体像がより立体的に見えるのです。


Q. Excelで分散を出すにはどうしたらいい?

A. 関数 =VAR.S()=VAR.P() を使えば一発です。

  • =VAR.S(範囲) → 標本分散
  • =VAR.P(範囲) → 母分散

たとえば、セルA1〜A3に「60, 70, 80」と入力されていたら
=VAR.S(A1:A3) と入力するだけで分散(今回は、「100」)が出せます。


まとめ

用語意味
平均中心(全体の傾向)
分散ばらつき(どれくらい散らばってるか)
標準偏差分散の平方根。分散とほぼ同じ意味で使われることも

分散は「データの安定性」を見るための基本中の基本です。
平均とセットで必ず押さえておきたいポイントになります。
私はよく標準偏差と間違ってしまいそうになりますが、みなさんは間違わないようにしてください。

分散について、詳しく別の記事(標準偏差と分散とは?データのばらつきをExcelで分析する)で説明していますので、ご覧ください。

コメント

タイトルとURLをコピーしました