患者の質問に対する回答を作成するのにもChatGPTが役立つ?
バーチャルヘルスケアの急速な拡大により、医療従事者の仕事量と燃え尽き症候群の増加に伴い、患者からのメッセージが急増しています。
人工知能(AI)アシスタントは、臨床医が確認できるような回答を作成することで、患者の質問に対する回答を作成するのに役立つ可能性がありますが、充分に検証されていません。
そこで今回は、2022年11月にリリースされたAIチャットボットアシスタント(ChatGPT)が、患者の質問に対して質の高い共感的な回答を提供できるかどうか、また医師による回答と比較した横断研究の結果をご紹介します。
この横断研究では、公開されたソーシャルメディアフォーラム(Reddit’s r/AskDocs)の質問の公開および非特定化データベースを使用して、検証済みの医師が公開質問に回答した2022年10月の195件のやりとりをランダムに抽選しました。チャットボットの回答は、2022年12月22日と23日の新鮮なセッションに元の質問を入力することで生成されました(セッション内で事前に質問が行われていない状態)。元の質問と、匿名化されランダムに並べられた医師とチャットボットの回答は、ライセンスを有する医療専門家のチームによって3重に評価されました。
評価者は「どちらの回答が良かったか」を選択し、「提供された情報の質」(非常に悪い、悪い、許容範囲、良い、非常に良い)と「提供された共感やベッドサイドマナー」(共感しない、少し共感する、適度に共感する、共感する、非常に共感する)の両方を判断しました。平均的な成果は1~5のスケールで順序付けられ、チャットボットと医師の間で比較されました。
試験結果から明らかになったことは?
195の質問と回答のうち、評価者は585の評価のうち78.6%(95%CI 75.0%〜81.8%)で医師の回答よりもチャットボットの回答を好みました。
医師の回答の平均値(IQR)は、チャットボットの回答よりも有意に短かいことが示されました(52 [17〜62] 語 vs. 211 [168〜245] 語、t=25.4; P<0.001)。チャットボットの回答は、医師の回答よりも有意に高品質と評価されました(t=13.3; P<0.001)。
医師 | チャットボット (ChatGPT) | |
「良い」または「非常に良い」と 評価された回答(≧4)の割合 | 22.1% (95%CI 16.4%〜28.2%) | 78.5% (95%CI 72.3%〜84.1%) |
共感的または非常に共感的と 評価された回答(≧4)の割合 | 4.6% (95%CI 2.1%〜7.7%) | 45.1% (95%CI 38.5%〜51.8%) |
例えば、「良い」または「非常に良い」と評価された回答(≧4)の割合は、医師よりもチャットボットの方が高いことが示されました(チャットボット:78.5%、95%CI 72.3%〜84.1%; 医師:22.1%、95%CI 16.4%〜28.2%)。これは、チャットボットの良質な回答や非常に良質な回答の普及率が3.6倍であることに相当しました。
また、チャットボットの回答は、医師の回答よりも有意に共感的と評価されました(t=18.9; P<0.001)。共感的または非常に共感的と評価された回答(≧4)の割合は、医師よりもチャットボットの方が高いことが示されました(医師:4.6%、95%CI 2.1%〜7.7%; チャットボット:45.1%、95%CI 38.5%〜51.8%)。これは、チャットボットの方が、共感的または非常に共感的な回答の有病率が9.8倍高いことを示しています。
コメント
COVID-19の大流行により、バーチャルヘルスケアの導入が早まり、これに伴い患者からの電子メッセージが1.6倍に増加し、1メッセージあたり電子カルテでの作業が2.3分増え、時間外作業も増加していることが報告されています(PMID: 34888680)。こうしたメッセージの負担を減らすための現在のアプローチには、通知の制限、回答に対する課金、訓練を受けていないサポートスタッフへの回答の委譲などがありますが(PMID: 36036837)、残念ながら、こうした戦略は質の高い医療へのアクセスを制限する可能性があります。例えば、メッセージの送信に課金される可能性があると知らされた患者は、メッセージの送信を減らし、臨床医とのやりとりを短くしています(PMID: 36607621)。
これらの課題に対してChatGPTが利活用できる可能性がるものの、医療提供のために開発されたものではないことから、患者の質問に対応するための能力については充分に検討されていません。
さて、横断研究の結果、チャットボット(ChatGPT)が、オンラインフォーラムで提起された患者の質問に対して、医師と比較して、質の高い共感的な回答を生成しました。ただし、横断研究の結果であることから、あくまでも相関関係が示されたに過ぎません。より質の高い前向き研究での比較検討が求められます。とはいえ、医師の負担軽減のためにチャットボットを利活用できる可能性が高いことが示されました。どのようなシーンでChatGPTに仕事を任せられるのか、検証が求められます。
続報に期待。
コメント