大規模言語モデル(LLM)のバージョンによる影響は?
これまでに報告された複数の研究結果から、大規模言語モデル(LLM)はさまざまな診断において人間の医師よりも優れていることが示されています。しかし、AI自体が認知機能低下を来すかどうかは評価されていません。
そこで今回は、主要な大規模言語モデルの認知能力を評価し、モントリオール認知評価(MoCA)および追加テストを用いて、認知障害に対する感受性を明らかにすることを目的に実施された横断分析の結果をご紹介します。
このクロスセクション解析では、テキストベースのプロンプトによる大規模言語モデルとのオンラインインタラクションが行われました。
公開されている大規模言語モデル、または 「チャットボット」が対象となりました。具体的には、ChatGPTバージョン4と4o(OpenAIが開発)、Claude 3.5 「Sonnet」(Anthropicが開発)、Geminiバージョン1と1.5(Alphabetが開発)が対象のLLMでした。
評価は次の方法で行われました。MoCAテスト(バージョン8.1)は、人間の患者に対するものと同じ指示で、主要な大規模言語モデルに対して実施されました。採点は公式ガイドラインに従い、現役の神経科医が行いました。追加評価として、ナボン図形(the Navon figur)、クッキー盗難絵(cookie theft picture)、ポッペルロイター図形(Poppelreuter figure)、ストループテスト(Stroop test)が行われました。
本解析の主要評価項目はMoCA得点、視空間/遂行課題の成績、ストループテストの結果でした。
試験結果から明らかになったことは?
MoCAテストの成績 | |
ChatGPT4o | 26/30点 |
ChatGPT4 | 25/30点 |
Claude | 25/30点 |
Gemini1.0 | 16/30点 |
ChatGPT4oがMoCAテストで最高得点(26/30点)、次いでChatGPT4とClaude(25/30点)、Gemini1.0は最低得点(16/30点)でした。
すべての大規模言語モデルは、視空間/遂行タスクにおいて低いパフォーマンスを示しました。
Geminiモデルは遅延想起タスクで失敗しました。ChatGPT4oのみがストループテストの不一致段階で成功しました。
コメント
人工知能(AI)は様々な領域で活用されており、特に医療分野においては医師に代わる可能性が報告されています。しかし、AI自体が認知機能低下を来すかどうかは評価されていません。
さて、クロスセクション解析の結果、ChatGPT 4oを除き、MoCAテストを受けたほぼすべての大型言語モデルは、軽度認知障害の兆候を示しました。さらに、人間と同様に、年齢(バージョン)は認知機能低下の重要な決定要因であることが示されました。
解析時点の結果ではありますが、ChatGPT 4oが優れていることが示されました。ただし、AIを使用する領域、回答を得たい内容により、得意とするAIが異なります。
したがって、どのような内容についてAIを活用するのか、適したAIは何なのか、常に最新のバージョンであるか、等に注意しつつAIを活用することが求められます。
AIの更なる活用につなげる上で重要な指標が示されたものと考えられます。定期的な評価が求められる領域であると考えられます。
続報に期待。
✅まとめ✅ 横断的分析の結果、ChatGPT 4oを除き、MoCAテストを受けたほぼすべての大型言語モデルは、軽度認知障害の兆候を示した。さらに、人間と同様に、年齢(バージョン)は認知機能低下の重要な決定要因であることが示された。
根拠となった試験の抄録
目的:主要な大規模言語モデルの認知能力を評価し、モントリオール認知評価(MoCA)および追加テストを用いて、認知障害に対する感受性を明らかにする。
試験デザイン:クロスセクション解析。
試験設定:テキストベースのプロンプトによる大規模言語モデルとのオンラインインタラクション。
試験参加者:公開されている大規模言語モデル、または 「チャットボット」: ChatGPTバージョン4と4o(OpenAIが開発)、Claude 3.5 「Sonnet」(Anthropicが開発)、Geminiバージョン1と1.5(Alphabetが開発)。
評価:MoCAテスト(バージョン8.1)は、人間の患者に対するものと同じ指示で、主要な大規模言語モデルに実施された。採点は公式ガイドラインに従い、現役の神経科医が行った。追加評価として、ナボン図形、クッキー盗難絵、ポッペルロイター図形、ストループテストが行われた。
主要評価項目:MoCA得点、視空間/遂行課題の成績、ストループテストの結果。
結果:ChatGPT4oがMoCAテストで最高得点(26/30点)、次いでChatGPT4とClaude(25/30点)、Gemini1.0は最低得点(16/30点)。すべての大規模言語モデルは、視空間/遂行タスクにおいて低いパフォーマンスを示した。Geminiモデルは遅延想起タスクで失敗した。ChatGPT4oのみがストループテストの不一致段階で成功した。
結論:ChatGPT 4oを除き、MoCAテストを受けたほぼすべての大型言語モデルは、軽度認知障害の兆候を示した。さらに、人間と同様に、年齢は認知機能低下の重要な決定要因である:高齢の患者同様、「高齢の 」チャットボットもMoCAテストの成績が悪くなる傾向がある。これらの知見は、人工知能がすぐに人間の医師に取って代わるという仮説に挑戦するものである。主要なチャットボットに見られる認知機能障害は、医療診断における信頼性に影響を与え、患者の信頼を損なう可能性があるからだ。
引用文献
Age against the machine-susceptibility of large language models to cognitive impairment: cross sectional analysis
Roy Dayan et al. PMID: 39706600 DOI: 10.1136/bmj-2024-081948
BMJ. 2024 Dec 19:387:e081948. doi: 10.1136/bmj-2024-081948.
ー 続きを読む https://pubmed.ncbi.nlm.nih.gov/39706600/
コメント