第2回　AIと人間の未来を決める鍵「アライメント」

高柳慎一（BCG XリードAIエンジニア）

2024/01/24 AI・先端テクノロジー

生成AI

世界の皆さん、おはようございます、こんにちは、こんばんは。BCG XのリードAIエンジニア、高柳です（肩書は公開当時）。連載第2回では、「AIアライメント」についてお話しします。アライメントは「整合、調整」を意味する英語で、「AIアライメント」と言うとき、人間とAIの考え方を「調整する」という意味で用います。

AIはすでにスマホやスマート家電のアシスト機能を通じて、私たちの日々の暮らしに便利さや豊かさをもたらしてくれています。しかし、AIはいつも人間の望むとおりに振る舞ってくれるとは限りません。AIは目的を達成するためなら手段を選ばず、倫理観に反した行動や、安全性を害する危険な行動をとる可能性があります。AIアライメントはこのような問題を防ぎつつ、AIの目的や行動が人間の価値観や意図に合致するよう、人間とAIのギャップを解消し、調整するための方法なのです。

“報酬”を設定する難しさ

AIが人間の価値観や意図に沿わない行動をとる理由は「AIの目的や行動が人間のものと異なるから」です。AIの行動の起点となるのは、人間が与えた目的、より具体的には“報酬”です。「こういう行動をとったら、ご褒美をあげるよ／罰するよ」という“しつけ”よろしく、数式で書かれた関数を最大化することを目指します。一方、人間の価値観や意図は複雑・曖昧で矛盾することも多々あり、明確に数式として言語化することが難しいため「簡単に測定できる代わりとなる目標」（プロキシ）を使用します。これが問題を引き起こすことがあります。

例えば、「CoastRunners」というゲームを題材にしたオープンAIのこちらの研究がとても参考になります。このゲームの目的は「ボートレースにおいてできるだけ早くゴールすること」ですが、コースをただ進行するだけではスコアは得られず、ルートに沿って設置されたターゲット（コインやアイテム）を取得することで高いスコアが獲得できるようになっています。オープンAIの研究者は「ゲーム中のコインやアイテムの取得を通じて得たスコア」が「ボートレースにおいてできるだけ早くゴールすること」という目的を反映していると仮定し、前者をAIの報酬として組み込みました。「スコアが高くなるようにボートを動かしさえすれば自ずとレースでも一番になれるだろう」ということです。

しかし動画を見るとわかるように、AIが操作しているボートは大きな円を描いて旋回し、3つのアイテム（TURBOアイテム）を繰り返し取得できる場所を発見します。真っ当にレースに参加せず、壁に船があたって火を噴いたり、他のボートに衝突したり、コースを逆走したりしたにもかかわらず、同じ場所をくるくる回ることでアイテムを取得し続け、普通にコースを完走して得られるスコアよりも高いスコアを達成したのです。

出所：オープンAIの研究“Faulty reward functions in the wild”（2016年12月）
※画像をクリックすると動画にとびます

高いスコアは獲得できたものの、これではこのゲームの本来の目的を達成したとは言えませんね。「ボートレースにおいてできるだけ早くゴールすること」という直接的に指定することが難しい報酬を「ゲーム中のコインやアイテムの取得を通じて得たスコア」という測定が可能なプロキシで代替してみたのですが、AIに真意が伝わらず、望ましくない結果となってしまったわけです。こうしたずれが、AIアライメントを難しくしている理由の1つです。

AIが人間の価値観や行動を学ぶ「RLHF」の3ステップ

現在のところ、RLHF（Reinforcement Learning from Human Feedback：人間のフィードバックによる強化学習）がAIアライメントを実行するために広く使われている手法ですが、まだまだ発展途上の分野です¹。ここでは、オープンAIの論文“Training language models to follow instructions with human feedback”を参考に説明してみます。RLHFは、図のように3つのステップから成ります。

ステップ1（初期的なAIの構築）：人間がAIに与える複数のデータに対して、正しい答えや結果（ラベル）を人間が提供する。AIはこれらを例として学習し、新しいデータに対して正しいアウトプットを予測できるようになる。

ステップ2（報酬AIの構築）：人間が初期的なAIの回答の良し悪しをランク付けする。この結果に基づき、回答の良し悪しを判断できる報酬AIを構築する。

ステップ3（最適化されたAIの構築）：複数のデータに対するAIの回答を報酬AIに渡して評価してもらい、報酬としてフィードバックを取得。それに基づいてAIポリシー（「どういう回答をすべきか」という戦略）をアルゴリズム²で更新し、最適化されたAIを構築する。

この3ステップを踏むことで、AIが人間の価値観や目標に沿った行動を学び、より効果的にタスクをこなす能力を身につけられる、ということになります。「報酬AIの報酬（フィードバック）に基づいて、また別のAIがどんどん賢くなっていく」だなんて、近未来感がありますね！

今年はAIの発展がさらに加速すると予想されます。AIアライメントはAIと人間との未来を決める鍵となるでしょう。次回もお楽しみに、Catch you later！

高柳慎一
ボストンコンサルティンググループ
BCG X リードAIエンジニア
北海道大学理学部卒業。同大学大学院理学研究科修了。総合研究大学院大学複合科学研究科統計科学専攻博士課程修了。博士（統計科学）。株式会社リクルートコミュニケーションズ、LINE株式会社、株式会社ユーザベースなどを経て現在に至る。デジタル専門組織BCG Xにおける、生成AIを含むAIと統計科学のエキスパート。

最近だとスタンフォード大学からDPO（Direct Preference Optimization）という手法が提案され、注目が集まっています ↩︎
より具体的にはPPO（Proximal Policy Optimization）というアルゴリズムです ↩︎

記事一覧へ

第2回 AIと人間の未来を決める鍵「アライメント」

“報酬”を設定する難しさ

AIが人間の価値観や行動を学ぶ「RLHF」の3ステップ

関連記事

第2回　AIと人間の未来を決める鍵「アライメント」