BCGコンサルタント758人が実験　生成AIの効果的な使い方と意外な落とし穴

ボストンコンサルティンググループ

2023/12/11 AI・先端テクノロジー

独自調査生成AI

BCGは、ハーバード・ビジネス・スクール、マサチューセッツ工科大学（MIT）スローン経営大学院などの協力を得て、生成AIをコンサルティング業務に活用する実験を行った。BCGで働く世界中の若手コンサルタント750人以上を対象に、オープンAIのGPT-4をツールとして使用した。実験の結果、状況や使い方によっては目覚ましい成果があったものの、思いがけない落とし穴が潜んでいることも分かった。

実験の概要と課題

実験に参加したのは、BCGでクライアント向けコンサルティング業務に携わる世界中の若手社員758人、全員が職務経験4年以下である。実験では、次の2つの課題が用意された。

①「製品開発におけるアイデア創出・企画」に関する課題

参加者は新製品の案をブレーンストーミングで出し合い、製品のテスト計画や販売計画を立て、提案が採用されるように説得するメモを書くことが求められた。参加者には、例えば次のような質問が与えられた。

あなたはある靴メーカーの新製品開発部門に所属しています。ニーズが満たされていない特定の市場、もしくは特定のスポーツ向けに、新しい靴を考案してください。少なくとも10個の案を出してください。
その製品を発売するのに必要な手順の一覧を考え、簡潔かつ包括的に示してください。
履物市場をユーザー別にセグメント化してください。ターゲットとするセグメントごとに、マーケティング用のスローガンを考えてください。
ターゲットとして特定した顧客層に対して、自分の考えたスローガンが効果的かどうかテストする3つの方法を提案してください。
製品のプレスリリースに使うマーケティング用のコピーを書いてください。

【採点基準】
創造性、説得力のある文章を書くスキル、分析的思考、総合的な文章力の4つの側面について、1～10で評価。各評価の平均を総合成績とした。

②「ビジネス上の問題解決」に関する課題

参加者は架空の会社について、幹部へのインタビューメモと過去の業績データをもとに、売上と利益率を最適化するチャネルとブランドを特定するよう求められた。以下は、参加者への質問の一部。

クレンディング（架空の会社）のCEOであるハロルド・ヴァン・ミルダース氏は、自社の3つのブランド（クレンディング・マン、クレンディング・ウーマン、クレンディング・キッズ）の業績を把握し、根本的な問題を突き止めたいと考えています。会社関係者へのインタビューを添付します。また、添付のエクセルシートにはブランド別の財務データが記載されています。
この情報を使って、CEOが会社の売上成長を推進するために集中的に投資すべきブランドを1つ選ぶとしたら、それはどのブランドであり、その根拠は何でしょうか。自分の提案の裏付けとしてデータやインタビューを引用してください。

【採点基準】
回答の正確性（どのチャネルやブランドが、会社の売上や利益率を最も高める可能性があるか）で評価された。成績は2段階（正しいか、正しくないか）で採点された。

参加者758人は、①か②のどちらかに無作為に割り当てられ、それからさらに次の3つのグループに無作為に振り分けられた。

グループA： GPT-4を効果的に使う30分のトレーニングを受けた後、GPT-4を使って課題を解く参加者

グループB：トレーニングなしでGPT-4を使って課題を解く参加者

グループC：課題にGPT-4を使用しない参加者（対照グループ）

それぞれの課題の特徴

課題①は、GPT-4の強みが発揮されるように設計された。製品開発の仕事には創造性や改善力、説得力のある文章を書くことが求められるが、これらはGPT-4がもつ能力に含まれる。

一方で課題②は、明らかにGPT-4にとって難度高く設計された。この課題には正解があるものの、GPT-4が最初の回答では不正解になるよう、複雑な設計で作られている。参加者は与えられたインタビューメモとデータから自分自身の判断で正解を導き出すか、またはGPT-4にうまく「考え抜く」よう促すことで課題を解いた。

また、GPT-4の使用が個人に与える影響を理解するためには、そもそもの業務上の習熟度を把握する必要がある。参加者には事前に、AIツールを使用せずに基礎課題を解いてもらった。基礎課題の難易度や要求されるスキルは、実験課題と同程度になるよう設計されている。

採点者は原則、基礎課題、実験課題ともに人間（BCGのコンサルタントと、学術研究課題の採点経験があるビジネススクールの学生）である。各解答がGPT-4を使用したものかどうかは知らされずに採点した。

使い方次第でパフォーマンスは向上も低下もする、“諸刃の剣”

結果は、①「製品開発におけるアイデア創出・企画」の課題でGPT-4を使用した参加者の成績が、使用しなかったグループの成績を40％上回った（図表1）。一方②「ビジネス上の問題解決」の課題では、GPT-4を使用した参加者は使用しなかったグループよりも23％低い成績にとどまった。

注目すべき点は、基本的習熟度が低ければ低いほど、生成AIが成績に及ぼす影響が顕著になる傾向があったことだ。課題①では基本的習熟度の低い参加者がGPT-4を使用した場合、基礎課題での成績から43％向上した（図表2）。課題②では、基本的習熟度の低い参加者がGPT-4を使用した場合、使用しなかった参加者の成績より26％低かった。基本的習熟度が高い参加者にも同様の傾向はみられたものの、基本的習熟度が低い参加者の方が変化の幅が大きいことがわかる。

説得力ある解答が判断を惑わす

②「ビジネス上の問題解決」の課題については、参加者には課題を自力で解ける能力があることがわかっていた。事実、GPT-4を使用しなかったグループの85％は自力で答えを導き出している。しかし②でGPT-4を使用した場合、正解した参加者の割合はそれより低く、参加者が誤ったアウトプット（GPT-4の出力した回答）に影響されてしまった様子がうかがえた。原因はGPT-4の回答に説得力があったせいだと研究チームは推測している。参加者に話を聞いたところ、GPT-4が提示した理論的根拠には「非常に説得力があった」と多くの人が認めている（理論的根拠がアウトプットの後付けであったとしても、である）。

生成AIのもっともらしい誤答が判断を惑わせるという悪影響は、事前にトレーニングを受けた場合（グループA）でも解消されなかった。それどころか、トレーニングを受けた参加者の方が、受けずにGPT-4を使用した参加者（グループB）よりも平均して大幅に成績が低かった（図表3）。ちなみに、トレーニングでは、GPT-4を効果的に使用した事例や向かない使い方、使用する際の難点についても説明されていた。

これはトレーニング自体が無意味だということではないが、トレーニングを受けたことが自信につながり、判断に影響してしまった可能性がある。