医療診断におけるAIの精度は?
生成型人工知能(AI)は医療診断における可能性を示しているが、その診断性能の包括的な評価や医師との比較は、これまで広く検討されていません。
そこで今回は、2018年6月~2024年6月に発表された”診断タスクに対する生成AIモデルの検証研究”を対象に診断制度における系統的レビューとメタ解析の結果をご紹介します。
試験結果から明らかになったことは?
解析の対象となった文献の特長
18,371件の研究を同定し、そのうち10,357件は重複研究でした。スクリーニングの結果、83件の研究がメタ解析に含まれました。最も評価されたモデルはGPT-4(54件)とGPT-3.5(40件)であり、GPT-4V(9件)、PaLM2(9件)、Llama 2(5件)、Prometheus(4件)、Claude 3 Opus(4件)、Gemini 1.5 Pro(3件)、GPT-4o(2件)、Llama 3 70B(2件)、Claude 3 Sonnet(2件)、Perplexity(2件)のようなモデルは評価数が少ないことが示されました。
報告数 | |
一般内科 | 27件 |
放射線科 | 16件 |
眼科 | 11件 |
救急科 | 8件 |
神経科 | 4件 |
皮膚科 | 4件 |
耳鼻咽喉科 | 2件 |
精神科 | 2件 |
消化器科 | 1件 |
循環器科 | 1件 |
小児科 | 1件 |
泌尿器科 | 1件 |
内分泌科 | 1件 |
婦人科 | 1件 |
整形外科 | 1件 |
リウマチ科 | 1件 |
形成外科 | 1件 |
レビューの対象となった専門分野は幅広く、一般内科が最も多いことが示されました(27件)。その他、放射線科(16件)、眼科(11件)、救急科(8件)、神経科(4件)、皮膚科(4件)、耳鼻咽喉科(2件)、精神科(2件)、消化器科、循環器科、小児科、泌尿器科、内分泌科、婦人科、整形外科、リウマチ科、形成外科が各1件でした。
モデルタスクについては、フリーテキストタスクが最も多く73記事、次いで選択タスクが15記事でした。テストデータセットの種類については、59報の論文が外部テストに関与しており、25報の論文は生成AIモデルのトレーニングデータが不明でした。収録された研究のうち、71件は査読付きであり、12件はプレプリントでした。
Prediction Model Study Risk of Bias Assessment Tool(PROBAST)評価により、バイアスリスクが高い研究は63/83(76%)、バイアスリスクが低い研究は20/83(24%)、一般化可能性の懸念が高い研究は18/83(22%)、一般化可能性の懸念が低い研究は65/83(78%)という総合評価が得られました。この評価の主な要因は、少ないテストセットでモデルを評価した研究と、生成AIモデルの学習データが未知であるために外部評価を証明できない研究でした。
メタ分析の結果
診断精度の差 (95%CI) | |
生成AIモデル全体 vs. 医師 | 医師の方が9.9%高い (-2.3~22.0%)、p=0.10 |
生成AIモデル全体 vs. 非専門医 | 非専門医の方が0.6%高い (-14.5~15.7%)、p=0.93 |
生成AIモデル全体 vs. 専門医 | 専門医の方が15.8%高い (4.4~27.1%)、p=0.007 |
生成AIモデルの全体的な精度は52.1%であり、95%CIは47.0~57.1%でした。メタ解析では、生成AIモデル全体と医師(医師の精度は9.9%[95%CI -2.3~22.0%]高い、p=0.10)および非専門医(非専門医の精度は0.6%[95%CI -14.5~15.7%]高い、p=0.93)で示されました。一方、生成AIモデル全体では、専門医に有意に劣っていました(精度の差 15.8%、95%CI 4.4~27.1%、p=0.007)。興味深いことに、GPT-4、GPT-4o、Llama3 70B、Gemini 1.0 Pro、Gemini 1.5 Pro、Claude 3 Sonnet、Claude 3 Opus、およびPerplexityを含むいくつかのモデルは、有意差はなかったものの、非専門家と比較してわずかに高い性能を示しました。
GPT-3.5、GPT-4、Llama2、Llama3 8B、PaLM2、Mistral 7B、Mixtral8x7B、Mixtral8x22B、Med-42は専門医と比較して有意に劣っていたが、GPT-4V、GPT-4o、Prometheus、Llama 3 70B、Gemini 1.0 Pro、Gemini 1.5 Pro、Claude 3 Sonnet、Claude 3 Opus、Perplexityは専門医と比較して有意差はありませんでした。
メタ回帰においても、泌尿器科と皮膚科で有意差が示された以外は、一般内科と様々な専門科との間でパフォーマンスに有意差は認められませんでした(p値<0.001)。医学領域のモデルは、わずかに高い精度を示しましたが(平均差 2.1%、95%CI -28.6~24.3%)、この差は統計的に有意ではありませんでした(p=0.87)。
バイアスリスクの低いサブグループの分析では、生成AIモデルは全体的に医師と比較して有意な性能差を示しませんでした(p=0.069)。バイアスのリスクが全体的に低い研究のみを評価しても、全データセットの結果と比較してほとんど変化は示されませんでした。バイアスリスク(p = 0.92)や出版状況(p=0.28)に基づく有意差は観察されませんでした。ファネルプロットの非対称性を定量化する回帰分析を用いて出版バイアスを評価したところ、出版バイアスのリスクが示唆されました(p = 0.045)。異質性解析では、R2値(異質性の説明量)は全試験で45.2%、全体のバイアスリスクが低い試験で57.1%であり、説明される変動性が中程度であることが示されました。
コメント
人工知能(AI)の進歩は凄まじく、特に診断分野で注目されています。しかし、医師の診断との比較検証は充分におこなわれてません。
さて、システマティックレビュー・メタ解析の結果、生成AIは、モデルによって精度は異なるものの、有望な診断能力が示されました。専門医レベルの信頼性には達していませんが、非専門医との差はほとんどありません。これらの知見は、その限界を適切に理解した上で導入された場合、医療提供や医学教育を強化する可能性を示唆しています。
AIは日々進歩していることから、分野によっては、すでに専門医レベルに達しているモデルもあるかもしれません。継続的に追っていきたいテーマです。
続報に期待。

✅まとめ✅ システマティックレビュー・メタ解析の結果、生成AIは、モデルによって精度は異なるものの、有望な診断能力を示している。まだ専門医レベルの信頼性には達していないが、これらの知見は、その限界を適切に理解した上で導入された場合、医療提供や医学教育を強化する可能性を示唆している。
根拠となった試験の抄録
背景:生成型人工知能(AI)は医療診断における可能性を示しているが、その診断性能の包括的な評価や医師との比較は、これまで広く検討されてこなかった。
方法:2018年6月~2024年6月に発表された、診断タスクに対する生成AIモデルの検証研究の系統的レビューとメタ解析を行った。
結果:83件の研究を分析した結果、全体の診断精度は52.1%であった。AIモデルと医師全体(p=0.10)または非熟練医師(p=0.93)との間に有意な性能差は認められなかった。しかし、AIモデルは専門医よりも有意に悪い結果を示した(p=0.007)。いくつかのモデルは非専門医と比較してわずかに高い性能を示したが、その差は有意ではなかった。
結論:生成AIは、モデルによって精度は異なるものの、有望な診断能力を示している。まだ専門家レベルの信頼性には達していないが、これらの知見は、その限界を適切に理解した上で導入された場合、医療提供や医学教育を強化する可能性を示唆している。
引用文献
A systematic review and meta-analysis of diagnostic performance comparison between generative AI and physicians
Hirotaka Takita et al. PMID: 40121370 PMCID: PMC11929846 DOI: 10.1038/s41746-025-01543-z
NPJ Digit Med. 2025 Mar 22;8(1):175. doi: 10.1038/s41746-025-01543-z.
ー 続きを読む https://pubmed.ncbi.nlm.nih.gov/40121370/
コメント