BCGコンサルタント758人が実験 生成AIの効果的な使い方と意外な落とし穴

底上げ効果と平準化効果

個々の成績を見てみると、GPT-4の使用は個人の成績分布に異なる2つの影響を与えることがわかる(図表4)。第一に、分布全体が右(より高い成績)へシフトしている。①「製品開発におけるアイデア創出・企画」の課題にGPT-4を使用した場合、基本的習熟度に関係なく、ほぼすべての参加者(約90%)がより質の高い解答を出した。第二に、成績のばらつきが劇的に減少した。平均的な成績を収めた参加者の割合が、GPT-4を使用した場合の方が高かった。

これはつまり、基本的習熟度の低い参加者が生成AIを使用した場合、習熟度の高い参加者とほぼ同じ結果になったということだ。実際に、①について両者の成績を基礎課題(全員がGPT-4を不使用)と実験課題とで比較すると、成績の差は明らかに縮まっている(図表5)。

改良はアウトプットの質を“下げる”おそれあり

GPT-4は「製品開発におけるアイデア創出・企画」の業務では、人間がGPT-4のアウトプットを改善する余地がないほど非常に高いレベルに達している。GPT-4の出力を改良しようとすると、最終的に人間が出す解答の質は低下した。また、実験ではGPT-4のアウトプットを「コピー&ペースト」することが好成績につながることがうかがえた。①「製品開発におけるアイデア創出・企画」の課題では、参加者の最終的な解答がGPT-4の初期案から離れれば離れるほど、解答の質が低下する可能性が高くなっている(図表6)。これに鑑みると業務によっては、「初期案は生成AIを使って作成し、それを人間が修正する」というやり方を前提とするのではなく、生成AIのアウトプットを妥当性の高い最終案とみなすべきなのかもしれない。

アイデアの多様性や創造性に及ぼすリスク

生成AIは適切に使用すれば業務の大幅なパフォーマンス向上が期待できるようだ。一方で、今回の実験から生成AIの使用が人間の創造性に及ぼすリスクも見えてきた。

1つ目のリスクは、「個人のパフォーマンス向上」と「アイデアの多様性低下」のトレードオフである。GPT-4は、同じ種類の問いに対して何度も似たような回答を出力する。そのため、GPT-4を使用した参加者が提出した解答は個々人で見れば優れていたが、集団で見ると同じような内容になっていた。①「製品開発におけるアイデア創出・企画」の課題でGPT-4を使用した参加者のアイデアの多様性は、使用しなかったグループと比較すると41%低かった(図表7)。GPT-4のアウトプットを改良した場合でも、個性はさほど出せなかった。

2つ目のリスクは、参加者へのインタビューから見えてきた。約70%の参加者が、GPT-4を長期間多用しつづけると自分の創造力が抑制されるかもしれないと考えている(図表8)。参加者の声として次のようなものがあった。

  • 「どのようなテクノロジーにも言えるが、人間はそれに頼りすぎてしまう場合がある。GPSが発売された当初は自動車のナビゲーションにとても役立ったが、今となってはGPSなしでは運転すらできない。テクノロジーに依存しすぎると、人間はかつて持っていた能力を失ってしまう」
  • 「GPTに依存しすぎると創造性の“筋力”が弱ってしまう。今回の実験の間にもそのようなことが起きた」

企業は、生成AIに対する従業員の認識や使い方に気を配る必要がありそうだ。「自分の創造力が抑制される」という従業員の懸念が裏付けられれば、集団にとってのリスクはさらに高まりかねない。個々の従業員の創造力が衰えた場合、アイデアの多様性がさらに失われる可能性があるからだ。