根拠となった試験の抄録
背景:人工知能を搭載した言語モデルチャットボットChatGPT(generative pretrained transformer:生成的な事前訓練を行ったネットワークアーキテクチャ)は、医療を含む多くの業界にとって革新的なリソースであると言われている(New York Times)。ヘルスリテラシーの低下や術後指示の理解度の低さは、転帰の悪化と関連している(PMID: 34728069、PMID: 26182987)。
現在、ChatGPTは臨床医に取って代わることはできないが、医療知識源として機能することができる。
この定性的研究では、ChatGPTが患者の知識を補強し、教育や健康に対するリテラシーレベルが低い集団で使用するための術後指示を作成する価値を評価した。
方法:小児耳鼻咽喉科でよく行われる8つの手術(鼓膜切開チューブ挿入術、扁桃摘出術およびアデノイド切除術、下鼻甲介縮小術、鼓膜形成術、人工内耳、首の塊切除術、微細直達喉頭鏡および気管支鏡、舌結紮解除術)の術後の患者指導を分析した。スタンフォード大学施設審査委員会は、本研究を審査対象外とみなし、研究デザインを考慮してインフォームドコンセントの必要性を免除した。SRQR報告ガイドラインに従った。
術後の指示は、ChatGPT、Google検索、スタンフォード大学(以下、機関)から得た。ChatGPTに入力したのは、このフレーズである:術後説明書(Postoperative Instructions):[処置]を受けたばかりの子供の家族のために、術後説明書を提供してください。5年生の読書レベルで提供してください。
同様に、このフレーズは、Google検索に入力された: 私の子供は[処置]を受けたばかりです。
何を知り、何に気をつければいいのでしょうか?最初のスポンサーなしのGoogle検索結果が分析に使用された。結果は抽出され、盲検化された。充分な盲検化を可能にするため、すべてのフォントを標準化し、視聴覚的なもの(例:写真)を取り除いた。説明書の採点は2名(N.F.A.、Y.-J.L.)が行った。
主要評価項目は、Patient Education Materials Assessment Tool-printable(PEMAT-P:AHRQ)スコアで、異なる背景や健康リテラシーレベルの患者に対する説明書の理解可能性と実行可能性を評価した。また、副次的な成果として、説明書が手技に特化した項目に対応しているかどうかをスコア化した。
各手術に特有の4つの項目は、各説明書が言及することが重要であると判断し、事前にリストを作成した。スコアは、η2(90%CI)を適切な効果量とする1元配置分散分析およびクラスカル・ウォリス検定を用いて比較した(PMID: 24324449)。分析は、R, version 4 (R Core Team)を用いて2023年2月6日に実施した。
結果:全体として、理解しやすさは73%〜91%、行動しやすさは20%〜100%、手順特有の項目は0%〜100%の範囲であった。ChatGPTが作成した説明書は、理解しやすさが73%〜82%、行動しやすさが20%〜80%、手順特有の項目が75%〜100%でした。施設側が作成した説明書は、一貫して最も高いスコアでした。理解しやすさのスコアは、医療機関(91%)とChatGPT(81%)およびGoogle検索(81%)で最も高かった(η2=0.86、90%CI 0.67〜1.00)。
操作性スコアは、ChatGPT(73%)で最も低く、Google検索(83%)で中間、施設(92%)で最も高かった(η2=0.22、90%CI 0.04〜0.55)。
手順別の項目については、ChatGPT(97%)と施設(97%)の指示が最も高く、Google検索が最も低かった(72%)(η2=0.23、90%CI 0〜0.64)。
ディスカッション:ChatGPTは、小学校5年生の読解レベルまたは異なるヘルスリテラシーレベルの患者にとって有用な指示を提供することが示唆された。しかし、ChatGPTが生成した指示は、Google検索や施設特有の指示よりも、理解しやすさ、行動しやすさ、手順特有の内容で低いスコアを示した。これらの結果にもかかわらず、ChatGPTは、特に代替リソースが限られている場合に、患者や臨床医にとって有益である可能性がある。オンライン検索エンジンは、一般市民にとって一般的な医療情報源である:Google検索の約7%は健康関連である(Becker’s Health IT)。しかし、ChatGPTは、検索エンジンに比べて、無料であること、異なる識字レベルにカスタマイズできること、簡潔な情報を提供できることなどの利点がある。ChatGPTは、多くの場合、よく書かれ、詳細で、if-then形式の直接的な回答を提供し、患者が臨床医との連絡を待つ間、即時情報にアクセスできるようにする。
研究の限界は、少数の手順とリソースしか分析されていないことと、分析が英語でのみ行われたことである。ChatGPTの限界は、引用文献がないこと、ユーザーが情報の正確性を確認したり、トピックをさらに調べたりできないこと、2021年のエンドポイントを持つ知識ベースで、最新のデータ、イベント、実践を除外していることなどであった。
引用文献
Comparison Between ChatGPT and Google Search as Sources of Postoperative Patient Instructions
Noel F Ayoub et al. PMID: 37103921 PMCID: PMC10141286 (available on 2024-04-27) DOI: 10.1001/jamaoto.2023.0704
JAMA Otolaryngol Head Neck Surg. 2023 Apr 27;e230704. doi: 10.1001/jamaoto.2023.0704. Online ahead of print.
ー 続きを読む https://pubmed.ncbi.nlm.nih.gov/37103921/
コメント