ChatGPTは米国の医師資格試験を通過する？（PLOS Digit Health. 2023）

00_その他

2023.03.08

この記事は約5分で読めます。

ChatGPTは医学教育や診断に応用できるのか？
根拠となった試験の抄録
コメント
☑まとめ☑ 米国の医師資格試験（USMLE）に対して、ChatGPTは特別なトレーニングや強化を行わなくても、USMLEの3つの試験すべてにおいて合格基準値かそれに近い結果を出すことができた。また、回答の根拠となった説明の一致度や洞察力が高いことが実証された。
根拠となった試験の抄録
引用文献

ChatGPTは医学教育や診断に応用できるのか？

OpenAIが2022年11月に公開したチャットボットであるChatGPT（Generative Pre-trained Transformer）は、GPT-3ファミリーの言語モデルを基に構築されており、教師あり学習と強化学習の両方の手法で転移学習されているAIです。

プロトタイプが2022年11月30日に公開され、幅広い分野の質問に詳細な回答を生成できることから注目を集めています。しかし、回答の根拠となった情報が誤っていたり、ChatGPTが独自に作成した引用文献であったりと、事実と異なる点に注意を要します。人間が “違和感のない回答” の生成を特徴としていることから、一見自然な文章や回答であっても事実とは異なる回答を生成することがあるということです。これは大きな欠点とされており、改善が求められています。

とはいえ、ChatGPTはAI学習を継続することで、より正確性を増すことが期待できます。

今回ご紹介するのは、米国の医師資格試験（USMLE）に対するChatGPTの有用性を検証した試験の結果をご紹介します。本試験は、Massachusetts General HospitalのTiffany Kung氏らが実施しました。

根拠となった試験の抄録

ChatGPT は、米国の医師資格試験（USMLE）での合格パフォーマンスに近づく中程度の精度をもたらしました。正確な回答間の一致はほぼ完璧で、不正確な回答間の一致よりも有意に高いことが示されました（論拠の整合性：正答 99.1% vs. 誤答 85.1%、p<0.001）。

これらのデータは、ChatGPTが非常に高い回答確率と説明の一致を有していることを示しており、確率的言語モデルの高い内部一貫性を反映している可能性があります。ただし、ChatGPTによって生成された説明には、明白でない洞察が含まれています。

AIによって生成された説明は、2人の医師の審査員によって個別に判断されました。審査員は、ステップ1では医学部2年生、ステップ2 CKでは医学部4年生、ステップ3では大学院1年生として、対象となるテスト対象者の視点を採用しました。全体として、ChatGPTは全回答の88.9%で少なくとも1つの重要な洞察*を生み出しました。
*洞察の定義：①用語の定義にとどまらない解答、②独創性、③非自明性、④有効性

次に、AI が生成した説明に含まれる洞察の密度（DOI）が定量化されました。密度指数は、可能な回答選択肢の数に対して一意の洞察の数を正規化することによって定義されました。高品質のアウトプットは、一般的にDOI>0.6によって特徴づけられました（つまり、5つの選択肢のうち3つ以上に提供された、ユニークで、斬新で、非自明で、有効な洞察）。低品質の出力は、一般にDOI≦0.2で特徴付けられました。すべての試験タイプで、正確に回答された質問項目と不正確に回答された質問項目の平均DOIが有意に高いことがわかりました（質問項目の平均DOI：正確 0.458 vs. 不正確 0.199、p<0.0001）。

高い頻度と中程度の密度の洞察は、対象となる学習者 (たとえば、ステップ1の準備をしている医学生2年生など）が、ChatGPT AIの出力から、特に間違った回答をした場合に、新しい知識または修復的な知識を得る可能性があることを示しています。

大規模言語モデルを用いた対話型AIであるChatGPTに注目が集まっています。様々な領域や学問での応用がなされていますが、米国の医師資格試験における有用性については検証されていませんでした。

さて、本試験結果によれば、米国の医師資格試験（USMLE）に対して、ChatGPTは特別なトレーニングや強化を行わなくても、USMLEの3つの試験すべてにおいて合格基準値かそれに近い結果を出すことができました。また、回答の根拠となった説明の一致度や洞察力が高いことが実証されました。

Tiffany Kung氏らは「大規模言語モデルは、医学教育において学習者に優れた洞察や模範となる演繹的推論を示したり、できる可能性が示唆された。将来的には、臨床的な意思決定にも組み入れることが可能になるかもしれない」としています。

まだまだ課題はあるものの、ChatGPTをはじめとする大規模言語モデルの可能性が示されています。AIに任せられる部分はAIに任せ、ヒトにできること、新たな価値の創造に目を向けたほうが良いのかもしれません。

続報に期待。

☑まとめ☑ 米国の医師資格試験（USMLE）に対して、ChatGPTは特別なトレーニングや強化を行わなくても、USMLEの3つの試験すべてにおいて合格基準値かそれに近い結果を出すことができた。また、回答の根拠となった説明の一致度や洞察力が高いことが実証された。

根拠となった試験の抄録

ChatGPTと呼ばれる大規模言語モデルの性能を、3つの試験からなるUSMLE（United States Medical Licensing Exam）において評価した。USMLEは、ステップ1、ステップ2CK、ステップ3の3つの試験から構成されている。
ChatGPTは、特別なトレーニングや強化を行わなくても、3つの試験すべてにおいて合格基準値かそれに近い結果を出すことができた。また、ChatGPTは、説明の一致度や洞察力が高いことが実証された。
これらの結果は、大規模言語モデルが医学教育、そして潜在的には臨床的な意思決定を支援する可能性があることを示唆している。

引用文献

Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models
Tiffany H Kung et al. PMID: 36812645 PMCID: PMC9931230 DOI: 10.1371/journal.pdig.0000198
PLOS Digit Health. 2023 Feb 9;2(2):e0000198. doi: 10.1371/journal.pdig.0000198. eCollection 2023 Feb.
ー続きを読む https://pubmed.ncbi.nlm.nih.gov/36812645/