Open AIツール “ChatGPT” が作成する医学研究抄録は説得力があるのか?(preprint; bioRxiv 2022)

elderly man thinking while looking at a chessboard 00_その他
Photo by Pavel Danilyuk on Pexels.com
この記事は約7分で読めます。
ランキングに参加しています!応援してもよいよという方はポチってください!

Open AIツール “ChatGPT” は説得力のある医学研究抄録を作成できるのか?

2022年11月30日にOpen AIの無料ツールChatGPT(OpenAI. ChatGPT)がリリースされ、人工知能モデルがコンテンツを生成する能力を実証し、その可能な使用方法(活用シーン)や潜在的な論争に関する記事がすぐに掲載されました(CNETDigital TrendsThe guardian)。また、ChatGPTの早期導入者は、ソーシャルメディア上でその経験を共有し、概ね肯定的な意見を持っているようです(arXiv)。

ChatGPTは高得点の論文を生成し(arXiv)、批判的思考を明確にできることが示されているため、従来の学校の作文課題の死を嘆く記事もあります(The guardianPMID: 36494443Forbes)。さらに、ChatGPTを科学的文章に使用する際の倫理的・許容範囲については、まだ不明です(Nat Mach Intell)。

大規模言語モデル(LLM)は、多くの場合、複雑なニューラルネットワークベースのモデルであり、トーンや内容を定義したテキストを生成することができます。これらを膨大なデータで学習させ、最適な次のテキスト要素を予測することで、自然に読める成果物を生成しています。ChatGPTはGenerative Pre-trained Transformer-3(GPT-3)をベースに構築されており、この種のモデルの中では最大級の1750億個のパラメータで学習させることができます(NPJ Digit Med)。これらの学習モデルは、人間が書いたテキストと見分けがつきにくい、首尾一貫した流暢な出力を生成します(Association for Computational Linguistics)。

人工知能(AI)は医療技術にも数多く応用されており(PMID: 32118012)、医学研究の執筆も例外ではなく、SciNote Manuscript Writerのような原稿執筆を支援する製品もあります(SciNote Manuscript Writer)。しかし、ChatGPTのリリースにより、この強力な技術がすべてのユーザーに無料で提供され、数百万人がこの新しい技術に関与している現状があります。ユーザー数は今後も増え続けると思われることから、ChatGPTが説得力のある医学研究抄録を書けるかどうかを判断することが急務となっています。

そこで今回は、インパクトファクターの高い医学雑誌5誌から研究要旨を10件集め(n=50)、ChatGPTにタイトルと雑誌をもとに研究要旨(アブストラクト)を生成させた後、人工知能(AI)出力検出器、剽窃検出器を用いて抄録を評価し、盲検化された人間のレビュアーが抄録がオリジナルか生成されたものかを見分けられるのか検証した研究結果をご紹介します。

試験結果から明らかになったことは?

ChatGPTで生成された抄録はすべて明確に書かれていましたが、特定のジャーナルの書式要件に正しく従っていたのは8%のみでした。

AI出力検出器を用いて生成されたアブストラクトを検出したところ、中央値(四分位範囲)99.98% [12.73~99.98] というスコア(高いほど生成された可能性が高い)であったのに対し、オリジナルアブストラクトにおけるAI生成の確率は 0.02% [0.02~0.09] という非常に低いスコアでした。

AI出力検出器のAUROC(受信者操作特性曲線下面積)は0.94でした。生成された抄録は、剽窃検出器を用いた独創性において非常に高いスコアを示しました(独創性100% [100~100] )。生成された抄録は、正確な人数は捏造されていたものの、オリジナルの抄録と同様の患者コホートサイズでした。

オリジナル抄録と一般抄録が混在している場合、盲検の人間レビュアーは、生成抄録の68%をChatGPTによる生成と正しく識別しましたが、オリジナル抄録の14%を生成されたものと誤って識別しました。レビュアーは、両者を区別するのは意外と難しいことが示されたものの、生成されたアブストラクトはより曖昧で、文章に定型的な雰囲気があると指摘しました。

コメント

チャットボットであるChatGPT(チャットジーピーティー、Generative Pre-trained Transformer)は、オープンAIであり今のところは無料で使用できます。GPT-3.5ファミリーの言語モデルを基に構築されており、AI学習の手法において様々な領域で転移学習に用いられています。応用でき得るものの一つに医学論文の作成があります。自然な文章を作成できるものの、一方で不正確な情報や誤訳、論理の飛躍などの課題が残っていますが、論文投稿における影響については不明です。

さて、本試験結果によれば、ChatGPTは、完全に生成されたデータでありながら、信憑性のある科学的アブストラクトを作成することができるようでした。盲検下の人間レビュアーは、ChatGPTが作成したアブストラクトに対して違和感を抱くことがあるものの、見抜く精度は低いことが示されました。また、剽窃検出器を用いた独創性評価において、独創性が高いと判断されました。一方、AI出力検出器を用いた評価では、高精度でAIが作成したアブストラクトであることを判定できています。つまり、AI検出器を用いればAIが作成したアブストラクトを見抜けることになります。

とはいえ、作成されたアブストラクトの完成度は現時点においても高く、今後AI学習が進歩することでアブストラクト作成における精度はより高くなると考えられます。英語論文を作成するハードルが下がりますね。

続報に期待。

high angle photo of robot

☑まとめ☑ ChatGPTは、完全に生成されたデータでありながら、信憑性のある科学的アブストラクトを作成することができる。

根拠となった試験の抄録

背景:ChatGPTのような大規模言語モデルは、ますますリアルなテキストを生成できるようになり、これらのモデルを科学的な文章に使用した場合の精度や整合性に関する情報は不明である。

方法:インパクトファクターの高い医学雑誌5誌から研究要旨を10件集め(n=50)、ChatGPTにタイトルと雑誌をもとに研究要旨を生成してもらった。人工知能(AI)出力検出器、剽窃検出器を用いて抄録を評価し、盲検化された人間のレビュアーが抄録がオリジナルか生成されたものかを見分けようとした。

結果:ChatGPTで生成された抄録はすべて明確に書かれていたが、特定のジャーナルの書式要件に正しく従っていたのは8%のみであった。AI出力検出器を用いて生成されたアブストラクトを検出したところ、中央値(四分位範囲)99.98% [12.73~99.98] というスコア(高いほど生成された可能性が高い)であったのに対し、オリジナルアブストラクトにおけるAI生成の確率は 0.02% [0.02~0.09] という非常に低いスコアであった。AI出力検出器のAUROC(受信者操作特性曲線下面積)*は0.94であった。生成された抄録は、剽窃検出器を用いた独創性において非常に高いスコアを示した(独創性100% [100~100] )。生成された抄録は、正確な人数は捏造されていたものの、オリジナルの抄録と同様の患者コホートサイズであった。オリジナル抄録と一般抄録が混在している場合、盲検の人間レビュアーは、生成抄録の68%をChatGPTによる生成と正しく識別したが、オリジナル抄録の14%を生成と誤って識別した。レビュアーは、両者を区別するのは意外と難しいが、生成されたアブストラクトはより曖昧で、文章に定型的な雰囲気があると指摘した。
*「ROC曲線の下の面積」を意味し、0.0(=0%)~1.0(=100%)の範囲の値をとる。統計学や機械学習において、1.0に近づくほどより良い指標、つまり予測性能が高いことを意味する。ROC曲線(Receiver Operating Characteristics Curve、受信者操作特性曲線)とは、縦軸に真陽性率(True Positive Rate)、横軸に偽陽性率(False Positive Rate)を取ってプロットした場合の曲線のこと。

結論:ChatGPTは、完全に生成されたデータでありながら、信憑性のある科学的アブストラクトを作成することができる。これらは盗用が検出されることなくオリジナルであるが、AI出力検出器と懐疑的な人間のレビュアーを使ってしばしば識別することが可能である。ジャーナルや医学会議のアブストラクト評価は、厳格な科学的基準を維持するために方針と実践を適応させなければならない。我々は、編集プロセスにAI出力検出器を含め、これらの技術が使用されている場合は明確に開示することを提案する。科学的な文章を書くのに役立つ大規模な言語モデルの倫理的で許容される使用の境界は、まだ決定されていない。

引用文献

Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intelligence output detector, plagiarism detector, and blinded human reviewers
Catherine A. Gao et al. bioRxiv Posted December 27, 2022.
doi: https://doi.org/10.1101/2022.12.23.521610
ー 続きを読む https://www.biorxiv.org/content/10.1101/2022.12.23.521610v1

コメント

タイトルとURLをコピーしました