第3回　その文章、生成AIが書いている？　電子透かしの現状

高柳慎一（BCG XリードAIエンジニア）

2024/03/11 AI・先端テクノロジー

生成AI

世界の皆さん、おはようございます、こんにちは、こんばんは。BCG XのリードAIエンジニア、高柳です（肩書は公開当時）。今回は、「AIが書いた文章を見分けるにはどうしたらいいんだろう？」というテーマでお話ししようと思います。

AIによる作成を識別する「電子透かし」技術

画像や動画についてはすでに、AIが作成したことを示す「電子透かし」の技術が現実的になってきました。電子透かしとは、画像や動画、音声などのデジタルコンテンツに、人間には見えないがコンピュータには検出できる情報を埋め込む技術です。これにより、著作権保護や改ざん防止、またAIが生成したコンテンツの識別も可能になります。グーグルの「SynthID」を筆頭に大手テック企業も次々と開発に着手し、米国では選挙妨害対策としての導入が注目されています。

一方で、画像や動画に比べて人の手で簡単に改変できる「文章」については、まだ研究開発の段階です。例えばオープンAIは昨年1月、AIによって生成された文章を判別するツールを発表しましたが、精度が低いとのことで半年後には利用できなくなりました。最近では文章から動画をつくるAIモデル「Sora」の発表で巷を賑わせたオープンAIですら、未完成の技術なわけです。

どうやって見抜くのか？

では、研究の最前線はどうなっているのでしょうか？ちょっとだけマニアックに、その様子を見てみましょう。

2023年に著名な機械学習の国際会議ICMLで優秀論文賞（Outstanding Paper Awards）を受賞した「A Watermark for Large Language Models」¹で、その答えの1つが提唱されています。この論文の考え方は極めてシンプルです²。

・LLM（大規模言語モデル）が次に出力する単語の候補を、直前の単語に基づきランダムに2つのグループに分ける
　・一方を「グリーンリスト」、もう一方を「レッドリスト」と呼ぶ
　・このグリーンリストの単語の集まり・組合せを電子透かしとして用いる
・電子透かしをいれたい場合、次に出力する単語をLLMにグリーンリストから選ばせる
・作成された文章の中にグリーンリストの単語が「不自然に」多いかどうかを統計的に判定する
・もし、グリーンリストの単語が多すぎる場合、そのテキストには電子透かしが入っている（LLMが生成したものである）と判断する

このようにして、LLMが生成する文章に、人間には見えないがコンピュータには検出できる電子透かしを入れることができちゃうんです。

AIで生成された文章を識別する電子透かしの手法に関する研究「A Watermark for Large Language Models」よりFigure 1を転載。 — 出所：「A Watermark for Large Language Models」（John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, Tom Goldstein, 25 Apr 2023, ICML OralPoster）より、著者の許諾を得てFigure 1を転載。（上）入力したプロンプト、（中央）電子透かしが入っていない文章、（下）電子透かしを入れたLLMの出力結果。緑色が多いことからLLMが書いた可能性が高いと判断

もちろん、この手法による電子透かしにも明らかな限界があります。例えば、電子透かしとして使うグリーンリストに分割するためのランダム化アルゴリズムが外部に漏洩したり、文章が大きく改変されたりすると電子透かしを消すことや偽造することが可能です。また、この電子透かしの検出方法は統計的な検定手法を用いる関係で、電子透かしが入っている・いないの判断を間違える可能性もあります。そのため、この論文で提案されている文章に対する電子透かしは完全なセキュリティ対策としてではなく、補助的な役割として考えるべきで、まだ発展の余地がある技術と言えるでしょう。

いやぁ、なかなか奥が深い世界でしたね！次回もお楽しみに、Catch you later!

高柳慎一
ボストンコンサルティンググループ
BCG X リードAIエンジニア
北海道大学理学部卒業。同大学大学院理学研究科修了。総合研究大学院大学複合科学研究科統計科学専攻博士課程修了。博士（統計科学）。株式会社リクルートコミュニケーションズ、LINE株式会社、株式会社ユーザベースなどを経て現在に至る。デジタル専門組織BCG Xにおける、生成AIを含むAIと統計科学のエキスパート。

John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, Tom Goldstein, “A Watermark for Large Language Models,” 25 Apr 2023, ICML OralPoster ↩︎
以下の説明は、同論文p.2の“Algorithm 1 Text Generation with Hard Red List”をもとに筆者作成。トークンをわかり易さのため「単語」と表現した ↩︎

記事一覧へ

第3回 その文章、生成AIが書いている？ 電子透かしの現状

AIによる作成を識別する「電子透かし」技術

どうやって見抜くのか？

関連記事

第3回　その文章、生成AIが書いている？　電子透かしの現状