データ分析では、2つのデータの関係性を把握することが重要です。その関係性を数値で示す指標の1つが「相関係数」です。Excelを使って相関係数を計算し、データの関係を分析する方法を解説します。
1. 相関係数とは?
相関係数(Correlation Coefficient) とは、2つの変数の間の関係性の強さを示す指標で、値は -1 から +1 の範囲 を取ります。
相関係数の意味
相関係数 (r) | 関係性 |
---|---|
+1 | 完全な正の相関(片方が増えるともう片方も増える) |
0 | 相関なし(関係性がない) |
-1 | 完全な負の相関(片方が増えるともう片方は減る) |
例えば、広告費と売上の関係を分析する際に、相関係数が 0.8 であれば「強い正の相関がある」と判断できます。
2. Excelで相関係数を求める方法
Excelには、相関係数を計算するための関数 CORREL関数 があります。
CORREL関数の使い方
=CORREL(A1:A10, B1:B10)
A1:A10
→ 1つ目のデータ範囲(例:広告費)B1:B10
→ 2つ目のデータ範囲(例:売上)
この関数を使うと、指定した2つのデータ間の相関係数を求めることができます。
Excelの「データ分析ツール」を使う方法
- 「データ」タブ →「データ分析」をクリック
- 「相関」を選択し、「OK」をクリック
- データ範囲を選択(A1:B10 など)
- 「出力先」を指定し、「OK」をクリック
これで、相関係数を含む相関分析の結果が表示されます。
3. 相関関係の活用例
(1) 売上と広告費の関係
- 相関係数が 0.85 なら、広告費を増やせば売上も増える可能性が高い。
- 相関係数が 0.2 なら、広告費と売上にほぼ関係がない。
(2) 気温とアイスクリームの売上
- 気温とアイスの売上の相関係数が 0.9 なら、気温が高いほど売れる。
- 相関係数が -0.8 なら、逆の関係(例えば気温と暖房器具の売上)を示す。
(3) 学習時間と試験の成績
- 相関係数が 0.7 なら、「勉強時間が長いほど成績が良くなる」傾向がある。
- ただし、相関が高くても因果関係とは限らない(他の要因が関与する可能性)。
4. 相関関係の注意点
(1) 相関が高くても因果関係とは限らない
相関関係があっても、必ずしも一方が原因で他方が結果とは言えません。
- 例:アイスの売上とサングラスの売上は相関が高いが、気温の影響が大きい。
(2) 外れ値の影響を受けやすい
極端な値(外れ値)があると、相関係数の値が大きく変わる可能性があります。
(3) データの範囲によって相関が異なることがある
一部のデータ範囲では強い相関があるように見えても、全体ではそうでない場合があります。
まとめ
- 相関係数 は、2つのデータの関係性を数値で表す指標です。
- ExcelのCORREL関数 を使えば簡単に計算できる。
- データ分析ツールの相関分析機能 を使うと、より詳細な分析が可能です。
- 相関が高いからといって因果関係があるとは限らない ことに注意する。
私は統計を勉強していて、相関係数のところが一番おもしろいなあと思いました。相関係数を算出することで、意外な組み合わせが影響をしていたりすることがわかると、「わっ!」と驚いたりしました。
相関係数を活用して、データの関係性を理解し、適切な意思決定に役立てましょう!
コメント