Q:「母集団」と「標本」って何が違うの?
A:
データ分析の本や記事を読んでいると、「母集団」や「標本」という言葉がよく出てきます。
何となくは知っていても、「どう違うの?」「何のために分けるの?」と感じたことはないでしょうか。
実はこの2つの概念は、統計の出発点と言えるほど大事な考え方です。
● 母集団とは?
「母集団」とは、分析対象となる“すべてのデータ”のことです。
たとえば、「日本全国の高校生の平均身長を知りたい」と思ったとき、対象となるのは全国の高校生全員で、これが母集団です。
ただし、現実には、全員にアンケートをとるのはほぼ不可能です。
時間もコストもかかりすぎるからです。
● 標本とは?
ただし、現実的に、全国の高校生全員からアンケートをとるのはほぼ不可能です。
そこで登場するのが「標本(ひょうほん)」です。
これは、母集団から一部だけを取り出したデータのことです。
たとえば、全国の高校生のうち、300人だけを無作為に選んで調査したとします。
この300人のデータが「標本」です。
この標本から得た平均身長を「標本平均」と呼びます。
そして、それをもとに「母平均(=全国の高校生の本当の平均)」を推測する、というのが統計学の基本的な考え方です。
● なぜ標本を使うの?
最大の理由は、現実的に全員を調べるのが難しいからです。
ビジネスの現場でも、たとえば「自社商品を使った全ユーザーの満足度」を調べるのは無理があります。
そのため、一部のユーザーにアンケートをとり、そこから全体の傾向を読み取ります。
この「一部から全体を推測する」という手法を推測統計と呼びます。
ただし、注意点もあります。
標本の選び方が偏っていると、結果も偏ってしまいます。
たとえば、身長を調べるときに、バスケ部員ばかりを標本に選んでしまうと、当然ながら平均身長は高く出てしまいます。
● まとめ
用語 | 説明 |
---|---|
母集団 | 分析対象となる全体 |
標本 | 母集団の一部を取り出したデータ |
母平均 | 母集団の本来の平均(通常はわからない) |
標本平均 | 標本の平均で、母平均を推測するために使う |
コメント