第6回 低コストで高性能を実現? AIモデル「DeepSeek」の注目ポイント

世界の皆さん、おはようございます、こんにちは、こんばんは。BCG XのプリンシパルAIエンジニア、高柳です。第6回は、いま世界の注目を集めている「DeepSeek」についてお話します。
DeepSeekとは
DeepSeekは2023年に設立された、創業者の梁文峰(Liang Wenfeng)氏が率いる中国のAIスタートアップです。彼は2015年にヘッジファンド「High-Flyer Quant(幻方量化)」を設立し、データ分析やAI・機械学習を活用した金融取引の運用手法「クオンツ運用」で成功を収めた人物と報じられています(実は私も元クオンツ1です)。
DeepSeekは、社名を冠した「DeepSeek」シリーズのAIをこれまでにも多数リリースしてきましたが、今回特に話題になったのがその最新モデル「DeepSeek-V3」と「DeepSeek-R1」です。
大規模言語モデル(LLM)のパラメーター数は、オープンAIの代表的なモデルであれば、一世代前のGPT-3で1,750億程度、GPT-4で1兆強と推測されています。DeepSeek-V3はその間に位置付けられる6,710億のパラメーターを持つモデルでありながら、GPT-4に匹敵する効率的な学習・推論を実現しています。DeepSeek-R1は、DeepSeek-V3をベースに発展させ、推論(リーズニング)2能力をさらに高めたモデルです。
DeepSeekの注目ポイント
DeepSeek-V3/R1の注目ポイントは、主に次の2つです。
- 最高性能ではない、かつ、少数の計算資源(GPU)を用いて、低コストで高性能なAIを開発した
- 人間が作成したデータを使うことなく、強化学習のみで学習させた「DeepSeek-R1 Zero」を開発。データ作成コストや人的リソースを大幅に削減した
まず1点目について、同社が公開した論文3によると「DeepSeek-V3」は2,048枚のエヌビディア製GPU H800を使用して学習されています。このH800というGPUは、日本を含む世界の市場で出回っている最新のGPU H100より低性能なものです。また、計算資源であるGPUの数の少なさも注目されています。純粋な比較はできませんが、例えばメタのLLM「Llama3」は、約2.4万枚のGPUを用いて学習されています。GPUというハードウェアに数・質とも制約があるなか、既存の高性能なモデルを凌駕するAIを開発したということに、世界中が驚いているのです。
この達成の裏には、そもそも分散並列学習4の高速化やデータ転送量の削減にはじまり、FP8学習(3.14を3として計算するイメージ)という手法や、複数のトークン(文字)を同時に予測し応答時間を削減する手法など、GPUではなく計算アルゴリズム、つまりハードウェアではなくソフトウェア面での涙ぐましい改善の積み重ねがあります。
そして、2点目は学習手法です。DeepSeekは同社社員が開発したアルゴリズム「GRPO(Group Relative Policy Optimization)」を用いて、人間が作成したデータを使うことなく、論理的思考や推論を行う能力を獲得した「DeepSeek-R1 Zero」を開発しました。通常、AIモデルの学習には人間のアノテーション(教師データ)が必要ですが、それを不要にし、言うなれば“人間の介在なし”に高い推論能力を得られたというのは驚愕です。
「開発費約8億円」はミスリーディング
一部では「DeepSeekのモデルは560万ドル(約8億円)で開発された」と報道されていますが、これは誤解を招く表現です。確かに、同社が公開している論文5によると、モデルの最終的な学習にはそれくらいのコストがかかっています。
しかし、背後には膨大な初期投資があります。例えば、2,048枚のH800 GPUのクラスター6を構築するだけでも100億円程度の費用がかかります。560万ドルという数字には、学習以前に、モデルが完成するまでのトライアンドエラーを含めた計算機の費用、人件費、運用代などが一切入っていません。したがって、実際の投資規模はもっと大きいのです。
基盤モデル開発は推論能力のさらなる向上へ
DeepSeek-V3/R1は、そのアルゴリズムや実装上の工夫が論文で公開されています。今後は、各社がそこからインスピレーションを得てより効果的・効率的な学習手法を開発し、基盤モデルがさらに高度な推論能力を獲得していくと予想されます。

また、DeepSeek-R1 Zeroが「人間が作成したデータを一切使わない」手法で推論能力を獲得した点は、かつて囲碁AIのAlphaGo Zeroが「人間の棋譜を使わずに自分自身との対局から学習を深め、従来のAlphaGoを超える強さを得た」方法とよく似ています。人間を介さず自由に学習できるということは、特定の分野に強く依存せず、より汎用的な応用が可能ということです。AlphaGo Zeroが囲碁の枠を超えてAlpha Zeroとなり、チェスや将棋へも応用されていったのと同様、DeepSeek-R1 Zeroも今後、さまざまな領域へ展開されていくのではないでしょうか。
ただし、DeepSeekの開発については、学習にオープンAIのデータを不正に利用した疑いが米国メディアで指摘されており、米国政府とオープンAIが連携して調査を進めていると報じられています。今後の動向は注視していく必要がありそうです。
以上、いま話題のDeepSeekについてお伝えしました。これからのAIの進化がますます楽しみですね!次回もお楽しみに、Catch you later!
- 数学や統計学、情報科学などの高度な知識を活用して市場分析や投資戦略を構築する専門家 ↩︎
- AI・機械学習の文脈ではインファレンス(Inference)もリーズニング(Reasoning)も「推論」と訳されるが、この記事ではリーズニングの意味で以降、「推論」とする ↩︎
- https://arxiv.org/pdf/2412.19437 ↩︎
- 複数のコンピューターやGPUが協力して機械学習モデルを効率よく学習させる方法 ↩︎
- https://arxiv.org/pdf/2412.19437の表1参照 ↩︎
- 複数のGPUをネットワークで接続し、並列計算を可能にした大規模な計算システム ↩︎

高柳 慎一
ボストン コンサルティング グループ
BCG X プリンシパルAIエンジニア
北海道大学理学部卒業。同大学大学院理学研究科修了。総合研究大学院大学複合科学研究科統計科学専攻博士課程修了。博士(統計科学)。株式会社リクルートコミュニケーションズ、LINE株式会社、株式会社ユーザベースなどを経て現在に至る。デジタル専門組織BCG Xにおける、生成AIを含むAIと統計科学のエキスパート。