
前回はとりあえず、ごくごく簡単な例で、p値ってこういう感じというのを高校数学でわかる例でみてみました。今回はその例を応用して、p値の注意点と効果量についてがテーマです。
前編の例のおさらい
後編の本題に移る前に、前編の例を再掲しておきます。イカサマコイン例1 |
---|
あるコインを10回投げたところ、表が2回、裏が8回出るという結果になった。このコインは裏の出やすいイカサマコインか? |
これを仮説検定する場合、帰無仮説は
帰無仮説:このコインはイカサマコインではない(=確率0.5でそれぞれ表裏が出る) |
となり、今回のp値は「10回中表が2以下しか出ない、または裏が2回以下しか出ない」という状況の確率として以下のように計算されます。
p=2×(10C2+10C1+10C0)×(0.5)10=0.1093 |
ということで、p値が0.05を下回りませんでした。10回中2回しか表が出ない、というのは、普通のコインでもそこそこ起こることなので、このコインはイカサマコインとは言えないわけでした。
サンプルサイズと検出力
ところで、さっきのコインは本当にイカサマコインではないのでしょうか。もっとどんどん繰り返してみましょう。
イカサマコイン例2 |
---|
さっきのコインを20回投げたところ、表が4回、裏が16回出るという結果になった。このコインは裏の出やすいイカサマコインか? |
コイン投げの回数を20回に増やしたところ、さっきと同様、面が出たのは2割だけでした。この時のp値を調べてみましょう。つまり、「20回中表が4回以下しか出ない、または裏が4回以下しか出ない」という状況の確率を求めてみましょう。
p=2×(20C4+20C3+20C2+20C1+20C0)×(0.5)20=0.006 |
なんと、同じ2割の確率で表が出る、という事象でしたが、回数を増やしただけでp値は小さくなり、有意水準を0.01にしても有意差があることになり、このコインはどうやらイカサマらしいという結果になってきました。
このように見かけ上同じような結果(2割くらいの確率で表が出る)になったとしても、サンプルサイズによって有意差が出るか出ないかが変わってきます。同じ効果量(2割くらいの確率で表が出る)でもサンプルサイズが大きいほど、検出力が高まる、ということです。
p値の注意点と効果量
私みたいな素人が統計をかじっていると、しばしば耳にする、「p値だけ見ててもダメだよ」ですが、先の2つの例の違いがそれを端的に表しているようにあります。
p値に関する誤解としてよくあるのが、「p値が小さいほど、より良いってことですよね?」という話です。しかし、先の2つの例を見た後では、それは違うということはお気づきかと思います。先の2つの例は、どちらも「このコインは2割くらいの確率で表が出る」コインなのです。でも、p値は全然違いました。
p値はあくまでこの実験で起こった出来事が、帰無仮説を支持するかどうかの指標であって、具体的にどの程度の差があるのかとは関係ありません。どの程度の差があるかを知るには、効果量を見る必要があります。
また、逆に言えば、例1の場合は、p値こそ有意水準を超えませんでしたが、効果量が「2割くらいの確率で表が出る」なので、サンプルサイズが小さいだけで、実際には差があるのでは?と考えるべきでしょう。大規模な前向き研究なんかで中間解析がなされることがありますが、このまま継続しようと考えるか、もう撤退したほうがいいと考えるかは、中間解析時点でp値が有意水準を超えるかだけで判断できないわけです。
サンプルサイズ設計
最後は少しテーマから外れますが、ランダム化比較試験(RCT)のことに触れたいと思います。RCTは、薬物などの治療法の有効性を調べるために、被験者を薬物投与群とプラセボ投与群に無作為に分け、(基本的には誰に薬物・プラセボが投与されたかが被験者にも評価者にもわからないようダブルブラインドして)投与前後の評価を同じように行い、効果を比較することで行われます。どのように無作為に群分けするか、ブラインド化するかなど、考えただけでも手間がかかることがわかります。
RCTをとりあえず行なってみて、本来ならば差があるのに、サンプルサイズが少ないせいで、これだけ労力を使ったのに有意差がが出なかった、となってしまうのは残念すぎます。あるいは、望ましい結果は出たけど、被験者を多くリクルートしすぎて、余計な手間や出費がかさんだ、となってしまうのも勿体無い話です。
そのため、RCTのような手間や費用がかかる試験を行うに当たって、サンプルサイズを事前に計算する、ということが行われます。
では、有意差を出すためのサンプルサイズを計算するには何が必要でしょうか。先の例で考えれば、効果量、検出力、有意水準がわかれば、必要なサンプルサイズが導き出せそうです。
有意水準は一般的に0.01や0.05に、検出力は0.8に設定されることが多いようです。なので、あとは効果量となります。
RCTをしてみよう、という段階ですから、すでにある程度その治療法に対するデータが出ており、それをきちんと証明するためにRCTを計画しているわけです。ですので、効果量は、先行研究のデータから推定すればいいわけです。
最後、テーマから脱線しましたが、高校数学でp値を考えるというのは、私自身が昔p値について納得するきっかけになったテーマでした。ざっくりと語るために、正確性が担保されていない部分や、実際の統計で行われている解析とはかけ離れた例を使ってしまいましたが、p値ってなに?の導入としては許されるのではないかなと勝手に思っています。
関連記事
高校数学で語るp値(前編)統計で出てくるp値について、高校数学レベルでわかる簡単な例で実際に計算してみました。
この記事へのコメント