Q&Aでわかるデータ分析(No.6 母集団と標本)

Q&Aでわかるデータ分析

Q:「母集団」と「標本」って何が違うの?


A:

データ分析の本や記事を読んでいると、「母集団」や「標本」という言葉がよく出てきます。
何となくは知っていても、「どう違うの?」「何のために分けるの?」と感じたことはないでしょうか。

実はこの2つの概念は、統計の出発点と言えるほど大事な考え方です。


● 母集団とは?

「母集団」とは、分析対象となる“すべてのデータ”のことです。
たとえば、「日本全国の高校生の平均身長を知りたい」と思ったとき、対象となるのは全国の高校生全員で、これが母集団です。

ただし、現実には、全員にアンケートをとるのはほぼ不可能です。
時間もコストもかかりすぎるからです。


● 標本とは?

ただし、現実的に、全国の高校生全員からアンケートをとるのはほぼ不可能です。
そこで登場するのが「標本(ひょうほん)」です。
これは、母集団から一部だけを取り出したデータのことです。

たとえば、全国の高校生のうち、300人だけを無作為に選んで調査したとします。
この300人のデータが「標本」です。

この標本から得た平均身長を「標本平均」と呼びます。
そして、それをもとに「母平均(=全国の高校生の本当の平均)」を推測する、というのが統計学の基本的な考え方です。


● なぜ標本を使うの?

最大の理由は、現実的に全員を調べるのが難しいからです。
ビジネスの現場でも、たとえば「自社商品を使った全ユーザーの満足度」を調べるのは無理があります。
そのため、一部のユーザーにアンケートをとり、そこから全体の傾向を読み取ります。

この「一部から全体を推測する」という手法を推測統計と呼びます。

ただし、注意点もあります。
標本の選び方が偏っていると、結果も偏ってしまいます。
たとえば、身長を調べるときに、バスケ部員ばかりを標本に選んでしまうと、当然ながら平均身長は高く出てしまいます。

● まとめ

用語説明
母集団分析対象となる全体
標本母集団の一部を取り出したデータ
母平均母集団の本来の平均(通常はわからない)
標本平均標本の平均で、母平均を推測するために使う

コメント

タイトルとURLをコピーしました