ランダム化比較試験におけるベースライン共変量の不均衡に関する有意差検定の有病率とその意味：表1の誤り | 2024年7月25日

「表1の誤謬」とは？
試験結果から明らかになったことは？
コメント
✅まとめ✅ 本研究により現代の腫瘍学ランダム化比較試験における「表1の誤謬」の存続が浮き彫りになった。有意差検定は不健全なランダム化手順を特定するための最適な方法ではなく、誤解を招く推論を助長する可能性がある。
根拠となった試験の抄録
引用文献

「表1の誤謬」とは？

有意差検定は、ランダム化比較試験において、ランダム化された参加者間のベースラインの人口統計学的特徴や臨床的特徴の不均衡を評価するためにしばしば用いられます。しかし、Table 1 Fallacy「表1の誤謬」として知られるこの方法は、1977年にK.J.Rothmanがこの懸念について論じた重要な研究以来、大きな批判に直面しています（PMID: 322841）。

ランダム化プロセスは、適切に実施された場合、各共変量の異なるカテゴリー内でランダムに治療を割り当てることにより、群間の交絡ベースライン特性における系統的バイアスを効果的に防止します。したがって、ランダム化は、治療選択に影響するバイアスを完全に調整する能力を欠く非ランダム化研究と比較して、治療効果を推論するための明確な利点を提供します。ランダム化はこのようにベースライン変数の系統的な差を防ぐのに役立つが、ランダム化は群間のバランスを保証するものではありません。特に小規模のパイロット試験や群数の少ないクラスター試験では、偶然による差がランダムに発生する可能性があるためです。しかし、系統的バイアスとは異なり、偶然の不均衡が推論の妥当性を脅かすことはありません。実際、複数の既知および未知の交絡因子が偶然によって不均衡になることは、従来のランダム化試験の解析の重要な基本的仮定です（PMID: 23255195）。つまり、有意な所見は、定義上、偽陽性です。したがって、偶然に起因する不均衡の重要性は、有意性検定に基づいて決定されるべきではなく、むしろ臨床的推論と研究結果への影響に基づいて決定されるべきです（PMID: 10406763）。

CONSORTガイドラインや他の研究団体、統計学文献でも推奨されているにもかかわらず、現代のランダム化比較試験において表1の誤謬がどの程度残っているかは不明です。そこで本研究では、腫瘍学における現代の第III相ランダム化比較試験の大規模データベースを分析することにより、「表1の誤謬」の頻度を調査すること、ベースライン変数の有意性検定の実施に関連する因子を特定することも目的として実施された研究結果をご紹介します。

ClinicalTrials.govから1,877件のランダム化比較試験がスクリーニングされました。多変量ロジスティック回帰により、Table 1 Fallacy「表1の誤謬」の予測因子が評価されました。

試験結果から明らかになったことは？

553,405人の患者を含む合計765件のランダム化比較試験が解析されました。

表1の誤謬は、25％の試験（765件中188件）で観察され、有意と判断された比較は3％（2,353件中59件）であり、典型的な5％のタイプIエラー断定確率に近似していました。試験レベルでの多重度補正の適用により、有意な所見の割合は0.3％（2,345試験中6試験）に減少しました。

表1の誤謬の低い確率と関連する因子	調整オッズ比 aOR （95％信頼区間 CI）
業界スポンサー	aOR 0.29 （0.18〜0.47）多重度補正P<0.0001
試験規模の大きさ（795例以上 vs. 280例未満）	aOR 0.32 （0.19〜0.53）多重度補正 P=0.0008
出版誌（ヨーロッパ誌 vs. アメリカ誌）	aOR 0.06 （0.03〜0.13）多重度補正 P<0.0001

表1の誤謬の低い確率と関連する因子には、業界スポンサー（調整オッズ比[aOR] 0.29、95％信頼区間[CI] 0.18〜0.47；多重度補正P<0.0001）、試験規模の大きさ（795例以上 vs. 280例未満；aOR 0.32、95％信頼区間［CI］ 0.19〜0.53；多重度補正 P=0.0008）、ヨーロッパ誌 vs. アメリカ誌の出版（aOR 0.06、95％信頼区間［CI］ 0.03〜0.13；多重度補正 P<0.0001）でした。

ランダム化比較試験において、アウトカムに影響する因子について、患者背景を可能な限り揃えることは、結果の信頼性を高めます。

群間差を有意差検定で抽出する試みが採用されますが、これは結果を誤った解釈へと導く可能性があることから避けた方が良いとされていますが、どの程度の臨床試験で採用されているのかについては充分に検証されていません。

さて、本研究により現代の腫瘍学ランダム化比較試験における「表1の誤謬」の存続が浮き彫りになりました。具体的には、25％の試験（765件中188件）で観察されています。

有意差検定は不健全なランダム化手順を特定するための最適な方法ではなく、誤解を招く推論を助長する可能性があることから注意を要します。Table 1（ベースラインの患者背景）について、有意差検定は不要であり、群間差が結果に及ぼす影響度合いについて推定、推論することの方に重きを置きたいところです。

adult displeased businesswoman with papers in light modern office

✅まとめ✅ 本研究により現代の腫瘍学ランダム化比較試験における「表1の誤謬」の存続が浮き彫りになった。有意差検定は不健全なランダム化手順を特定するための最適な方法ではなく、誤解を招く推論を助長する可能性がある。

根拠となった試験の抄録

背景：Table 1 Fallacy「表1の誤謬」とは、ランダム化群間のベースライン変数の分布を比較するために有意差検定を不健全に使用し、バランスまたは不均衡について誤った結論を導き出すことを指す。我々は、第III相がん臨床試験におけるTable 1 Fallacyの横断的研究を実施した。

方法：ClinicalTrials.govから1,877件のランダム化比較試験をスクリーニングした。多変量ロジスティック回帰により、Table 1 Fallacy「表1の誤謬」の予測因子を評価した。

結果：553,405人の患者を含む合計765件のランダム化比較試験が解析された。表1の誤謬は、25％の試験（765件中188件）で観察され、有意と判断された比較は3％（2,353件中59件）であり、典型的な5％のタイプIエラー断定確率に近似していた。試験レベルでの多重度補正の適用により、有意な所見の割合は0.3％（2,345試験中6試験）に減少した。表1の誤謬の低い確率と関連する因子には、業界スポンサー（調整オッズ比[aOR] 0.29、95％信頼区間[CI] 0.18〜0.47；多重度補正P<0.0001）、試験規模の大きさ（795例以上対280例未満；aOR 0.32、95％信頼区間［CI］ 0.19〜0.53；多重度補正 P=0.0008）、ヨーロッパ誌対アメリカ誌の出版（aOR 0.06、95％信頼区間［CI］ 0.03〜0.13；多重度補正 P<0.0001）であった。

結論：本研究は、現代の腫瘍学ランダム化比較試験における表1の誤謬の存続を浮き彫りにした。有意差検定は不健全なランダム化手順を特定するための最適な方法ではなく、誤解を招く推論を助長する可能性がある。ジャーナルレベルでの施行は、この誤謬を軽減するための可能な戦略である。

キーワード：共変量不均衡、腫瘍学、第III相、ランダム化比較試験、ベースライン特性の有意性検定、表1の誤り、ベースライン差の検定

引用文献

Prevalence and implications of significance testing for baseline covariate imbalance in randomised cancer clinical trials: The Table 1 Fallacy
Alexander D Sherry et al. PMID: 37827064 DOI: 10.1016/j.ejca.2023.113357
Eur J Cancer. 2023 Nov:194:113357. doi: 10.1016/j.ejca.2023.113357. Epub 2023 Sep 22.
ー続きを読む https://pubmed.ncbi.nlm.nih.gov/37827064/