Absence of evidence is not evidence of absence.
BMJ. 1995 Aug 19;311(7003):485.
PMID: 7647644
PMCID: PMC2550545
背景
統計的有意性と臨床的重要性の非等価性は長い間認識されてきたが、このような解釈の誤りは依然として一般的である。大規模な研究で有意な結果が得られても、臨床的には重要ではないこともあるが、有意でない所見の誤認識がはるかに大きな問題となっている。
P>0.05の持つ意味とは?
慣例では、5%を超えるP値(P>0.05)は “有意ではない “と呼ばれている。比較される治療法の間に有意な差を示さないランダム化比較臨床試験は、しばしば “ネガティブ “と呼ばれる。この用語は、研究では違いがないことが示されているのに対し、通常は違いの証拠がないことだけが示されているという誤った意味合いを持っています。これらは全く異なる記述である。
対照試験のサンプルサイズは一般的に不十分であり、その結果、治療における実際の、そして臨床的に価値のある違いを検出する力が不足している。
ネガティブな臨床試験とは?
Freimanらは、1978-9年にNew England Journal of Medicineに掲載された試験71件のうち、P>0.1で比較された治療法の有効性の差が50%であっても90%の確率で検出できるほどのサンプル数を持つ試験は30%しかなく、1988年に掲載された同様の試験のサンプルでは改善が見られなかったことを発見している。
これらすべての「ネガティブ」試験を、新しい治療法の効果がないことを示す証拠として解釈することは、明らかに間違っており、無謀である。この文脈では「ネガティブ」という言葉を使うべきではない。
臨床試験の誤った解釈例 – 1
最近の例として、静脈瘤出血患者におけるオクトレオチドと硬化療法(sclerotherapy)を比較した試験がある。この試験では、臨床的に価値のある治療法の違いが本当に存在するのであれば、統計学的に有意な結果が得られる確率はわずか5%であった。このような低い統計力の結果の一つは、治療差の信頼区間が広かったことである。著者らは、2つの治療法の治癒率の差が20%ポイントまでの差を含む95%信頼区間にもかかわらず、2つの治療法は等しく有効であると結論づけた。
臨床試験の誤った解釈例 – 2
重要でない結果を誤って解釈する危険性についての同様の証拠は、個々の試験が統計的に十分な規模のものではない場合に、発表された試験の多くのメタアナリシス(概要)にみられる。劇的な例として、急性心筋梗塞後の再梗塞予防のための線溶療法(主にストレプトキナーゼ)を評価した臨床試験の概要が挙げられる。ランダム化比較試験の概要では、死亡率が22%減少するという、中程度ではあるが臨床的に価値のある(そして非常に有意な)結果が得られたが、統計的に有意な効果を示したのは24試験中5試験のみであり、P<0.05であった。ほとんどの個々の試験で統計的有意性が認められなかったため、ストレプトキナーゼの真価が評価されるまでには長い時間がかかった。
証拠がない イコール 情報がない?
肯定的な証拠がない限り、新しい治療法を受け入れないのは通常合理的であるが、公衆衛生の問題が懸念される場合には、証拠がないことが不作為を正当化するのに十分有効な理由になるかどうかを疑問視しなければならない。最近公表された例としては、いくつかの乳児の突然死とベビーベッドのマットレスに含まれるアンチモンとの関連性が示唆されている。例えば、暴力的な行動とテレビやビデオでの暴力への暴露との間の可能性のある関連性、飲料水に残留する農薬の有害な影響の可能性、電磁場と白血病の間の可能性のある関連性、牛からの牛海綿状脳症の可能性のある感染の可能性に関連して、証拠の欠如についての記述は一般的である。このような場合、明確な証拠がないということは、リスクがない、あるいは無視できる程度のリスクしかないということになるのでしょうか。
「AがBを引き起こすという証拠がない」と言われたとき、まず、「証拠がない」ということは、単に情報が全くないということなのかどうかを問う必要がある。データがある場合は、単なるP値ではなく、関連性の定量化を探すべきである。リスクが小さい場合、P値は誤解を招く可能性がある:信頼区間が広く、かなりの不確実性を示している可能性がある。関連性がないことを証明することはできないが、必要に応じてAとBの間の関連性を示す証拠、例えば症例対照研究などを求めるべきである。このような研究を実施することの重要性は、仮定された効果の深刻度と、母集団での曝露がどの程度広まっているかに関係している。
コメント
論文を読んでいくと、よく出逢う言葉に “Absence of evidence is not evidence of absence” があります。今回紹介するのは、その言葉の元になった論文です。
さて、臨床試験の結果から、あるアウトカムについて治療群とプラセボ群でP>0.05だった場合、”P>0.05 = 治療効果がない” という誤った解釈があります。これは、正しくはP値が0.05を上回る場合に統計学的な有意差はない、ということなのですが、拡大解釈して “治療効果がない” としてしまうことです。
統計学的解析は、サンプル数や介入によるバラつきの程度に左右されます。また本来は、いわゆる効果がある、つまり治療した方が有益である場合にも、当たり前ですが5%の確率でエラー(βエラー、第2種の過誤)が発生します。これは20回に1回、結果を誤ることになります。
著者も述べていますが、証拠がない(Absence of evidence)ことは単に情報が全くないことにはならないかもしれない、ということです。P値に囚われるばかりでなく、きちんと効果推定値(点推定値および区間推定値)をみた方が良いということです。
全てのことに言えることかもしれませんが、臨床試験による治療効果の検証においては、効果結果はブロードであり、二値的には語れません。どの程度の効果なのか、ここを明らかにすることが肝要ではないでしょうか。
コメント