AI生成文章の検出モデルを開発 GPTシリーズで生成された日本語の文章を高精度に検出
AI生成文章と人間が作成した文章が混在するテキストデータにも対応
■開発の背景
近年、ChatGPTをはじめ文章を自動で生成するAIが数多く登場し、様々な文章コンテンツをAIを用いて作成することが可能となりました。一方で、教育現場や学術分野においては、AIが生成した文章と人間が書いた文章の判別が困難であるという課題が生まれています。また、専門知識を持たずとも、AIを利用することでそれらしい文章を作成できる手軽さから、ネガティブキャンペーンや虚偽のニュースを作成する事例も出てきています。
このような社会的状況を受け、当社では、これまでのフェイク検出技術開発で得た知見を基に、AIによって生成された文章を検出する技術を開発しました。
■AI生成文章検出モデルについて
当検出モデルは、OpenAIが提供するGPTシリーズ(ChatGPT、GPT-4、 GPT-4oなど)によって生成された日本語の文章を検出するモデルです。350文字以上の文章であれば、AIによって生成された文章中に、人間が書いた文章が混ざっている場合でも生成された箇所を検出可能です。また、AI生成の文章を検出する機能を持つツール「GPTZero」との検出精度比較でも、GPTZeroの検出精度71%に対し当検出モデルでは88%の検出精度を記録し、GPTZeroを上回る結果となっています。
〈検証条件〉
●検出に使用したテキストは、以下の方法で生成されたデータで検証
・GPT-3.5:CausalLM/GPT-4-Self-Instruct-Japaneseのインストラクションを活用して生成
・GPT-4:CausalLM/GPT-4-Self-Instruct-Japaneseから出力
・GPT-4o:CausalLM/GPT-4-Self-Instruct-Japaneseのインストラクションを活用して生成
●20個の文章に対してそれぞれの検出器で判定を行った結果をまとめた数値
▼検出条件は以下の通り
・テキストの長さ:300文字以上
・検出に使用したオープンソースのデータセット:
https://huggingface.co/datasets/CausalLM/GPT-4-Self-Instruct-Japanese
当検出モデルでは、文章を複数のセグメントに分け、各セグメント毎に生成された可能性のスコアを算出し、スコアに応じたラベル付けを行います。
【判定ラベルの内容】
緑…人間が書いた可能性が高い文章(AI生成の可能性:30%以下)
黄…AI(GPTモデル)が生成した可能性が高い文章(AI生成の可能性:70%以上)
白…予測困難な文章(AI生成の可能性:30%~70%未満)
■考えられる活用分野
AI生成文章検出の技術は生成AIを使って文章を作成する、あらゆるシーンでの活用が可能で、学術・教育分野、メディア領域、犯罪対策、クリエイティブなど幅広い分野での活用が期待されます。
●学術・教育分野
論文やエッセイ、課題提出物における生成AIの活用を検出
●メディア
生成AIで作成されたフェイクニュースやネガティブキャンペーンの検出
●犯罪対策・防犯
生成AIで作成された詐欺やフィッシングメールを検出し、個人や組織を保護
●クリエイティブ
コンテンツクリエイターが書いた文章と生成AIによる文章の判別
■今後の展望
今後は、GPT以外の主要な文章生成AIの検出にも対応させることで、生成されたAIに限らず検出が可能となるようモデル性能の一般化を進めてまいります。また、当社では引き続き、フェイク検出に関する技術開発や新たなフェイク生成手法への対応も進めてまいります。
■ お問い合わせ
当社のAI生成文章検出モデルに関するお問い合わせは以下フォームからお気軽にご相談ください。
https://www.nablas.com/contact
◾️NABLAS株式会社について
当社は東大発のベンチャーであり、AI人材教育・育成機関、そして最先端のAI技術、特にDeep Learning技術を活用したソリューションを提供するAI総合研究所です。AI人材育成事業では、東京大学で開発したAI人材教育コンテンツと当社でアップデートしたコンテンツを学習環境iLect Systemと共に、AI人材育成サービスとして提供しています。AIコンサル・R&D事業では、AI技術の導入・研究・開発について技術面でのコンサルティング業務を展開し、クライアントの状況に応じてAI技術の導入・開発など技術面でのサービス提供を行っています。AI技術の社会実装を様々な形で実現し、人・テクノロジー・社会問題を繋げ、人が人らしく生きられる社会の実現へ貢献していきます。
◾️会社概要
社名:NABLAS株式会社
代表者:代表取締役 所長 中山 浩太郎
本社:東京都文京区本郷6-17-9 本郷綱ビル1F
設立:2017年3月
事業内容:AI人材育成事業/コンサルティング/研究開発
お問い合わせ先:pr@nablas.com(広報窓口)
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像