
前回(複数の相関を調べた時の多重比較-Bonferroni法とFDR法)、Bonferroni法はαエラーを少なくするために非常に保守的なため、統計的有意差が出なかった場合に、「帰無仮説は棄却されない」ではなく、「帰無仮説の棄却は保留」と考えるべき、と記述しました。では、FDR法とBonferroni法では、どれくらいの差があるのでしょうか。
そのために、前々回(多群間比較での多重比較-One-way ANOVA後のpost-hoc test)行った多群間比較での多重比較をBonferroni法とFDR法で行ってみて、Tukey-Kramer法での多重比較と結果がどう違うかを見てみたいと思います。
前々回のデータのおさらい:ANOVAからpost-hoc test
前々回、各曜日での歩数の違いを7群間で比較するのに、1.One-way ANOVAで7群の間に違いがあることを調べてからpost-hocとしてTukey-Kramer法で多重比較、2.7C2=21組のペアの違いをt検定を21回繰り返し検定、という2つの方法を行って比べました。以下のTable 1、Table 2がその結果です。

Tukey-Kramer法で多重比較した場合は6つのペアで有意差を認めたのに対し、t検定の繰り返しでは10つのペアで有意差がつき、この4つが検定の繰り返しに伴うαエラーである可能性が考えられました。
t検定の繰り返しの結果をBonferroni法、FDR法で補正
では次にTable 2のt検定の繰り返しの結果を、Bonferroni法、FDR法で補正してみましょう。まずはBonferroni法から。21回t検定を繰り返しているので、有意水準が0.05から0.05/21=0.00238に変わります。ですので、Table 2を見ると、金-日、火-日、金-土、月-日の4組に有意差が残ることになります。注意しておきたいのは、p < 0.05を満たしているものの、Bonferroni法での有意水準を満たさなかった残り6つの検定については、αエラーのリスクが高いため、「帰無仮説の棄却が保留された」と考えておくべきでした。
次にFDR法(BH法)の場合ですが、前回同様、p値を大きい順に並べ替えて、各検定での有意水準を一つずつ横に添えて比較していきましょう(Table 3)。

すると、p値が7つ目に小さい月-土の時点で、有意水準を下回りました。よってこのp値以下の7つの検定で有意差が残ることになりました。
Tukey-Kramer testでの多重比較と比べ、Bonferroni法では有意差が残った数が厳しく(つまり保守的でαエラーの可能性が低くなる分、βエラーの可能性が強まってしまう)、FDR法では有意差が残った数が甘め、という結果となりました。
多く使われている方法を使いましょう
この多重比較に対してどの方法を使うべきか、ですが、Bonferroni法よりはFDR法の方が良いでしょう。前回も述べたように、5つ以上の統計の繰り返しでは、Bonferroni法はβエラーの数が高まってしまい、推奨されませんでした。しかし、やはりFDR法よりはTukey-Kramer testを用いるべきでしょう。その大きな理由は、Bonferroni法もFDR法もp値を直接操作するという簡単な方法である反面、多重比較後の統計量を知ることはできないからです。つまり、Table 2には多重比較補正を考慮していない95%信頼区間が記されていますが、Bonferroni法やFDR法はここから多重被殻補正後の95%信頼区間を求めることはできません。対して、Tukey-Kramer法ではTable 1で示されているように、多重比較補正後の95%信頼区間が算出されています。この違いは、特に「p値ばかり見るな」と言われる昨今では非常に重要な違いだと思われます。
今回は私の興味本位で、Bonferroni法とFDR法ってどれくらい違うのか、他の多重比較と比べてどうなのか、と思ったので、試しにやってみただけですので、あしからず。
関連記事
多重比較-なんのため、どんな時に行う?多重比較がなぜ必要か、どのような時に行うべきかについてまとめてみました。
複数の相関を調べた時の多重比較-Bonferroni法とFDR法
多重比較補正でよく使われるボンフェローニ法とFDR法について、エクセルで実際に行う方法をまとめました。
多群間比較での多重比較-One-way ANOVA後のpost-hoc test
多重比較補正が必要であるという考え方を、最たる例である「3群以上の群間比較で、One-way ANOVAをした後に、post-hoc testを行う」という例を使って考えてみました。
この記事へのコメント