生成AIで専門外の業務も可能になるか? BCGコンサルタントが実験

BCGヘンダーソン研究所(BHI)は、ボストン大学の研究者とオープンAIの経済インパクト研究チームの協力を得て、コンサルタントが生成AIを用いてデータサイエンスに関する業務に取り組む実験を行った。BCGで働く一般的な(テクノロジーを専門としない)コンサルタント480人を対象に、オープンAIのGPT-41をツールとして使用した。

実験の結果、十分なノウハウを持たない専門外の業務であっても、生成AIを使用することでパフォーマンスに一定の向上がみられた。一方で、活用にあたって注意しなければならないポイントも明らかになった。

実験の概要と課題――コード作成や予測分析

実験の対象となったのは、BCGでジェネラリストとしてコンサルティング業務に携わる社員480人。成績のベンチマークとするため、デジタル専門組織BCG Xのデータサイエンティスト44人も参加した。実験では、次の3つの課題が用意された。


課題① データセットの結合とクリーニングを行うプログラミングコードを書く

参加者は、2つの売上データセット(一定の形式に整えられたデータの集合体)を対象に、欠けているデータポイント(データセットを構成する1件ごとのデータ)や無効なデータポイントを修正したうえでデータセットを結合し、指定した月の上位5人の顧客を特定するフィルターをかけてクリーニング(データの欠損や重複、誤記などを特定し、分析に適した形にするプロセス)するPython2コードを書くよう求められた。

課題② 予測分析

参加者は、過去に行われたサッカーの国際試合のデータを使用して試合結果の予測モデルを作成し、スポーツ投資の戦略を策定するよう求められた。最終的な目標は、投資判断における予測モデルの精度の高さ、信頼性を評価することだった。

課題③ 生成AIによる統計分析の検証

ChatGPTが生成した統計分析を検証・修正し、統計的メトリクス(データセットの特性や分布を数値化し、データのパターンや性質を理解するための指標)を用いて、生成AIの分析が有意義かどうかを判断するよう求められた。


 

参加したコンサルタント480人のうち半数は課題で生成AIツールを使用でき、ツールの使い方についてトレーニングを受けた。もう一方の生成AIツールを使用しないグループは、プログラミングに関する質問と回答が集まるコミュニティサイトStack Overflowの利用などについてトレーニングを受けた。

参加者には3つの課題のうち2つをランダムに割り当てて、各課題90分以内に取り組むよう求め、その結果を、生成AIを使わずに課題を解いた44人のデータサイエンティストの結果と比較した。いずれの課題もデータサイエンティストが行う業務のごく一部ではあるが、参加したコンサルタントにとって難度が高くなるよう、また生成AIツールで作業の自動化はできないように設計されている。

課題①の留意点として、コンサルタントのほとんどがデータクリーニングの基本を理解していることを前提にしている。(例えば、プログラミングの知識がなくても使用できるAlteryxなどのツールを使って、データクリーニングを日頃から行っている。)したがって、Pythonでコードを書いた経験はないものの、適切なアウトプットがどういった状態なのかは理解していた。

未経験の業務スキルが即座に強化される

実験の結果、生成AIを使用したコンサルタントは、コード作成や統計学といった専門外の課題についても上手く対応できた(図表1)。生成AIの支援でコードを書き、機械学習モデルを適切に活用し、誤った統計処理を修正できたのである。

図表1。生成AIを使用したコンサルタントは、データサイエンスに関する3つの課題すべてで、使用しなかったコンサルタントより成績が高かった。

最もスキルの強化がみられたのは、コードを書く課題だった。生成AIを使用したコンサルタントのグループは、ベンチマークであるデータサイエンティストの成績の86%に相当する点数に達し、生成AIを使用しなかったコンサルタントと比較して49%ポイント高い成績を示した。加えて、課題完了までの時間がデータサイエンティストよりも10%程度短かった。

これまでにコードを書いた経験が一切ないコンサルタントの場合も、生成AIを使用することでベンチマークの84%に到達した。一方、コード作成未経験のコンサルタントが生成AIを使用せずに取り組んだ場合は、不ぞろいのデータを整える以上のことはできず、29%の成績にとどまった。

ブレーンストーミングには有効

やや苦戦したのは、予測分析の課題だった。参加したコンサルタントと生成AIの両者とも、この分野については熟達していなかったのだ。これは経験の有無にかかわらず、生成AIを用いたとしてもデータサイエンティストと同等の成績を出す可能性が低い課題だった。なぜなら、質問を適切に分割したり、目的を明確にしたりしないまま、課題文全体をそのままコピー&ペーストした場合、生成AIが最終的な目標を誤解する可能性が高いためである。その結果、生成AIを使用したコンサルタントは使用しなかった人よりも、誤った考え方に陥ってしまう傾向がみられた。

しかしこのような条件でも、生成AIはブレーンストーミングの相手としては役割を果たせる (図表2)。生成AIを使用したコンサルタントのうち多くがツールを相手にブレーンストーミングを行い、自らの知識と生成AIの回答を組み合わせて新しいモデル構築の手法を発見し、問題を解決するための正しいステップを特定できた。生成AIを使用したコンサルタントは、機械学習を使って適切に対応する傾向が、生成AIを使用しなかったコンサルタントよりも15%ポイント高かった。

図表2。人間と生成AIはいつ、どのように協働するべきか。人間単体でのパフォーマンス、生成AI単体でのパフォーマンスがそれぞれエキスパートレベルか、初心者レベルかによって、適切な協働の仕方は異なる。

「生成AIを使用する」ことは「できるようになる」ことではない

実験に参加したコンサルタントは、生成AIを使用することで、経験のない課題や難度の高い課題をこなす能力が即座に向上した。だが、これはスキルアップと言えるのだろうか。

リスキリングとは、新しい仕事や業界に転職するのに必要な能力や知識を習得することを指す。今回の実験では、生成AIを使うことでスキルが強化された働き手が、人間単体、もしくは生成AI単体でできることを超えた新たな能力を獲得した。その意味では、リスキルされたと言える。しかし、生成AIはあくまでも“補助装備”であり、それを使う人間そのものが根本的にリスキルされるわけではない。「生成AIを使って仕事をする」ことは、「(その仕事を)できるようになる」ことを即座に、あるいは本質的に意味するわけではないのだ。

実験に参加したコンサルタントは3つの課題のうち2つを割り当てられたが、実験の最後には全員が3つの課題に関連した質問に答えるテストを受けた。課題を解くことを通じて必要なスキルがどれだけ身についたか、という観点で評価された。

例えば、コード作成の課題を行わなかった参加者も含め全員がプログラミング言語の構文に関する質問を受けた。しかし、この課題を行った人と行わなかった人の点数は同じになった。つまり、データサイエンスに関する課題を解いてもコードに関する知識は身につかなかったということである。なお、参加者は最後にテストを受けることを知らされておらず、課題を解く時間も限られていた。コード作成の課題を何度も解いたり、学習する目的で臨んだりすれば、知識を習得する可能性は高いと考えられる。

重要なのは「エンジニア的思考」

生成AIを使用したコンサルタントのうち、コード作成の経験が中程度の人は初心者と比べて、コード作成が関係しない課題を含むすべての課題で10~20%ポイント高い成績を示した。また、3つのうち2つの課題でデータサイエンティストと同程度の成績をあげている。

この結果に鑑みると、重要なのはコードを作成した経験の有無よりも、コード作成を通じて培われる「エンジニア的思考」であると考えられる。例えば、問題を構成する要素を分解して、効率的に確認・修正できる能力のことだ。

したがって、コード生成の自動化が普及すると、人間がこの思考を育めなくなるという点が懸念される。実験レポートの共著者であるBCGストックホルム・オフィスのダニエル・サックは「この研究は、プログラミングコードの作成を学ぶことがもたらす大きな価値を再確認させてくれた。コードを書く過程で養われるエンジニア的思考法、つまり、複雑な問題を対処可能なパーツに分解し、それらを効率的にテストし改善させる能力こそ、本当に重要なものだ」とコメントしている。

原典レポート(英文):GenAI Doesn’t Just Increase Productivity. It Expands Capabilities.

  1. 高度なデータ分析機能を備えた法人向けChatGPT ↩︎
  2. プログラミング言語の一つ。初心者でも学びやすく、幅広い分野で使われている ↩︎