第10回 AIの知力を測る究極の難問「人類最後の試験」とは?

世界の皆さん、おはようございます、こんにちは、こんばんは。BCG Xの高柳です。最近、AIの評価が難化しているという話、聞いたことありませんか? 今回はそれに関連して話題になっている「人類最後の試験(Humanity’s Last Exam)」について、いったいどんなものなのかお伝えします。
①従来のテストでは、急速に進化するAIの実力を測れなくなっている
②「人類最後の試験(HLE)」は数学から哲学まで幅広い分野の難問で構成。最新のAIでも正答率は約20%にとどまる
③AIベンチマークは今後、「動的ベンチマーク」形式や実務志向に多様化する可能性も
AIが賢すぎてテストが追いつかない
2022年11月にChatGPTが登場して以来、AIはあっという間に進化し、私たちの想像を超える勢いで賢くなっています。大学入試の問題なんて朝飯前、司法試験や医師国家試験でも合格レベルの成績を叩き出すようになった今、「じゃあ、どうやってAIの実力を測ればいいの?」という問題が浮上してきました。
そこで、世界中の研究者たちが「最先端のAIでも解けないような問題を作ろう!」と乗り出したのが「人類最後の試験(Humanity’s Last Exam)」です。AIの学習に使うデータのラベル付けを専門とするScale AIという企業と、Center for AI Safety(CAIS)という非営利団体が作成を手掛けています。
最先端のAIでも正答率20%の「人類最後の試験」
この試験、どれくらい難しいかというと、最新のAIモデルでも正答率は20%程度。つまり、5問中1問しか正解できないレベルです。一般的な大学入試問題であれば、今のAIは90%以上の正答率を出すことも珍しくないので、この数字がいかに低いかわかりますよね。
問題は数学、物理、生物学、コンピューターサイエンス、哲学など、あらゆる分野から2,500問が出題。単純な知識を問うだけでなく、複雑な推論や創造的な思考が必要な問題ばかりです。
実際に問題を見てみると……
私も興味本位で実際の問題をいくつか見てみたところ……正直、何を聞かれているのかすら理解できない問題がたくさんありました。
例えば数学の問題。

「自然変換」とか「関手」とか、耳なじみのない専門用語のオンパレードです(圏論かな?)。「対称群Σ4とΣ7の脱ループ化(deLooping)の脈体(nerve)の∞圏」なんて言葉も出てきて、問題文を読むだけで頭がクラクラしてきました。
さらに驚いたのは、西洋古典学の問題。

問題は、「ローマの墓石に刻まれたパルミラ文字を翻訳せよ」。……これはどう考えても考古学者でなければ解けないのではないでしょうか。
マサチューセッツ工科大学、オックスフォード大学、カリフォルニア大学バークレー校、サンパウロ大学など、世界中の一流大学の研究者たちが知恵を絞って作っただけあって、まさに人類の知の限界に挑戦するような内容になっています。
人類の知的能力を超える?
「人類最後の試験」という名前には、「これが解けるようになったら、もうAIは人類の知的能力を完全に超えてしまう」という意味が込められているそうです。これほどまでに特殊で難しい問題を AIが20%も解けているというのは、実はとんでもないことなのではないでしょうか? 私は統計科学の博士号を取得していますが、それでも問題文を理解することすらできなかったのに、AIは5問に1問は正解を導き出せるのです。今はまだ20%ですが、AIの進化スピードを考えると、1年後(早ければ数カ月後)にはもっと高い正答率を出す可能性があります。
HLEが測っているのは単なる百科事典的な知識の網羅性ではなく、断片的な情報を統合させることができるか、文脈をまたいで連鎖的に推論できるか、矛盾を見つけ整合性をとることができるか、といった「解の一貫性を作る力」でもあります。したがって、20%という正答率は、AIが正しく推論できる範囲が着実に広がっているサインだと考えられます。
ただし、何をもって「人類の知的能力を超えた」と言えるかには留保も必要です。AIのベンチマークは今後、HLEのような汎用的な問題をベースにしたテストにとどまらず、AIが解くたびに新しい問題が生成されるような「動的ベンチマーク」形式や、より実務的なシチュエーションでの能力を問う内容など多様化していくかもしれません。次回もお楽しみに、Catch you later!

高柳 慎一
ボストン コンサルティング グループ
BCG X プリンシパル
北海道大学理学部卒業。同大学大学院理学研究科修了。総合研究大学院大学複合科学研究科統計科学専攻博士課程修了。博士(統計科学)。株式会社リクルートコミュニケーションズ、LINE、ユーザベースなどを経て現在に至る。デジタル専門組織BCG Xにおける、生成AIを含むAIと統計科学のエキスパート。