
その反面、なぜ多重比較補正をしなければならないのかがよくわかっていない、という院生が多いように感じます。
今回はなぜ多重比較補正をするのかを簡単にまとめつつ、実際に多重比較補正を行なっている論文の例を挙げていきます。
familywise errorとは
統計を行う上で、多重比較の問題を扱う必要があることがあります。例えば、有意水準をα=0.05に設定し、3つの検定を行ったとして、帰無仮説を仮定した上で、その3つの検定のうち少なくとも1つのp値が0.05となる可能性は、3回検定を行い、少なくとも1つが偶然p=0.05となる確率 |
---|
1-(1-0.05)3=0.14 |
と、実際に差がなくても14%の確率で起こるわけです。このように、検定を繰り返した結果、全体として何らかの帰無仮説を棄却する結果が出てαエラーが増大することをfamilywise error(FWE)と言います。
最近の研究では、その評価項目は多岐にわたるため、10以上の項目について検定を行い、p値を求めていることは非常に多いため、FWE rateが無視できなくなります(下図)。そこで、これを補正するために多重比較が行われます。

多重比較を行う場面
多重比較をしなければならない場面は大きく2つあります。- 3群以上での群間比較等でANOVAを用い、有意差が出た際のpost-hoc testでの補正
- 複数の統計解析を行う(例えば複数の項目の2変量相関を繰り返す)際の補正
どちらも根本的には統計解析の繰り返しに対する補正という意味で同じですが、ANOVAを挟んで全体として有意差があるかを判定してからpost-hocとして多重比較するのか、最初から個別に検定を行うのか、という点は私のような統計初心者にとっては大きな違いに見えます。
各種の多重比較補正を行なっている論文の例
具体的に多重比較を行っている論文をあげてみます。Araujo et al. Impaired cognition in depression and Alzheimer (AD): a gradient from depression to depression in AD. Arq Neuropsiquiatr. 2014 Sep;72(9):671-9
Major depression(MD), Alzheimer's disease(AD), depression in ADの3群間で認知機能の違いを見るために、one-way ANOVAのpost-hocとしてTukey法を用いています。3群をそれぞれ2群ずつ比較すると、MD vs AD, MD vs depression in AD, AD vs depression in ADの3回検定が必要となります。その多重比較補正をした上で2群間比較をするために、post-hoc testとしてTukey法が行われています。
*Tukey法の場合、各群のデータ数が一致する必要があるはずなのですが、この論文では一致していません。もしかしたらTukey-Kramer法を用いているのを書き間違えているのかもしれません。ANOVA→post-hoc Tukey Kramer testという流れは非常によく見る流れですが、実際にはTukey Kramer法はF検定量を用いない多重比較なので、事前にANOVAをする必要はないそうです。
Zuo et al. White matter abnormalities in major depression: a tract-based spatial statistics and rumination study. PLoS One. 2012;7(5):e37561.
major depression患者のdiffusion tensor imagingのあるROIにおけるFA値と、RRS-21という評価尺度の総得点と3つの下位項目との相関を調べる際、4つの検定を行っているため、Bonferroni法を用いて多重比較補正をしています。
Pal et al. Global cognitive function and processing speed are associated with gait and balance dysfunction in Parkinson's disease. J Neuroeng Rehabil. 2016 Oct 28;13(1):94.
Parkinson病における運動症状や非運動症状を幅広く調べ、それらの相関を見る際、161個(!)ものSpearmanの順位相関係数を調べ、26個が有意となりましたが、FDR法を用いて多重比較補正したところ、有意差が残ったのは6つだけになっています。
*Bonferroni法でも多重比較をすることができますが、Bonferroni法は厳しい多重比較のため、数が増えるとβエラーの可能性が高まり、5つ以上の多重比較では使わない方が良いそうです。一つ前の論文では4つの検定に対する多重比較なので、Bonferroni法を用いても妥当なわけですね。
年々多重比較補正を行っている論文数は増加
多重比較補正には、F値やt値といった検定量を調整する方法と、p値のみを調整する方法とがあり、p値を調整する方法の法が汎用性が高いため、多くの場面で用いられています。その代表的なものが、先にも例に挙げたBonferroni法とFalse Discovery Rate(FDR)法です。実際に、Pubmedで検索してみると、Bonferroni法は1978年に、FDR法は1997年に、それぞれ論文が出ているのを皮切りに、年々増えています(下図)。

*このグラフのデータの入手法はこちら
非常に多くのデータを取り扱い、多くの統計を行うことが求められる昨今の研究において、多重比較に配慮することは必須になっています。
なんだか論点が微妙なままダラダラと長くなってしまいましたが、ひとまず、複数の統計解析を行い、複数のp値を出すときには、多重比較を考慮しなければならない、というのが科学論文を書く上で常識になっているということです。多重比較は解析ソフトを使えば(BonferroniやFDRに関しては手計算でも)やり方自体はそれほど難しくはないですが、種類が多く、どのような場面でどの方法を適用すべきかを考え始めるといろいろ複雑な気がします。
その辺りの事も今後ちゃんとメモしたいと思います。
関連記事
多群間比較での多重比較-One-way ANOVA後のpost-hoc test多重比較補正が必要であるという考え方を、最たる例である「3群以上の群間比較で、One-way ANOVAをした後に、post-hoc testを行う」という例を使って考えてみました。
複数の相関を調べた時の多重比較-Bonferroni法とFDR法
多重比較補正でよく使われるボンフェローニ法とFDR法について、エクセルで実際に行う方法をまとめました。
この記事へのコメント