母集団とサンプルと信頼区間
新生児の出生後のビリルビンについて平均値とばらつきを知りたいとする。この場合、全国の新生児のビリルビンの平均値を知ることは不可能である。そこで、母集団と標本について考えることになる。標本から母集団を推測する訳であるから、標本は母集団からランダムに抽出されたもので、バイアスがかかっていてはいけない。標本として抽出された新生児が日本全国に新生児にあてはまるものでなくてはならない。地域差や栄養が偏っていたりしてはならない。そうなると厳密な意味で日本の新生児のビリルビンの平均値を推定するのは難しいことになるが、サンプルの採り方に偏りがないかに注意を払うことは非常に重要なことである。
最近、統計の表し方として95%信頼区間がよく使われるが、これを理解するには母集団と標本の関係を理解しておくことが重要である。いくつかの施設からサンプルをとって、そのデータから母集団を推定することになる。この場合新生児全体が母集団であるが、仮にこの平均がわかったとしてμとする。標本について得られるデータは、その平均値、標準偏差、分散、範囲などである。母集団の平均μは標本データより推定することになる。そこで、母平均μの区間推定をおこなうことになる。
では”母平均の”95%信頼区間とは何を意味するか?母集団からランダムに標本を取り出し95%信頼区間を求めたとする。同様にm回標本を抽出して95%信頼区間を求めたとする。「得られたm個の95%信頼区間が μを含まないことが予想される確率が5% 」というのが95%信頼区間の考え方である。
区間推定で得られた範囲が信頼区間であり、その上限および下限を信頼限界という。
区間推定については、別項にて説明する。