GPT-5世代のLLM：3年で推論コストは120分の1になった

Lab Research GPT-5世代のLLM：3年で推論コストは120分の1になった

GPT-4相当クラスのAPI推論コストは、2023年初頭の60ドル/Mトークンから2026年Q1に0.5ドル/Mトークンへと3年で120分の1に低下した。

この数字が意味するのは技術的進歩ではなく、ビジネス構造の変化だ。AIエージェントが何万回もLLMを呼び出すことが経済的に成り立つ時代になった。

数値

コストは対数スケールで落ちている。2024年以降はGPT-4o相当クラスが別トラックで登場し、さらに低価格帯のセグメントが生まれた。コスト曲線は2本になった。

解釈

パラメータ数の話をする人はまだ多いが、MMLUスコアで見るとGPT-3（175B）の70%からGPT-5（推定10T）の94%まで改善しても伸びは約24ポイントだ。一方でコストは3年で99%以上低下した。非線形な改善はパラメータ側ではなくコスト側で起きている。

コスト低下の要因は3つある。第一にMixture of Experts（MoE）アーキテクチャによる推論時の計算量削減、第二に量子化・蒸留技術の成熟、第三にH100/B200等の専用チップのスループット向上だ。パラメータを増やしながら推論コストを下げるという「両立」が可能になった。

GPT-5が示したもう一つの変化はTest-Time Compute（推論時計算）だ。回答前に長い思考チェーンを生成し、より正確な結論を出す。これは「推論品質」をコスト投入量で制御できることを意味する。高精度が必要なタスクは多く考えさせ、簡単なタスクは素早く答えさせる、という使い分けが明示的になった。

判断

コスト低下の恩恵を最も受けるのはAIエージェント系のアプリケーションだ。人間との1往復の対話ではなく、数百回のLLM呼び出しを伴うワークフローが経済的に成立する。ソフトウェア開発の自動化、医療レポート処理、法律文書解析——いずれも2024年時点では試算上コストが合わなかったが、2026年は別の計算になる。

投資家として見るべき指標はパラメータ数でもMMLUスコアでもなく、推論コスト×ユースケース別のROIだ。モデルそのものより、コスト低下を活用したアプリケーション層のほうが短期の投資機会として具体的だ。

DMM株日本株・米国株・NISAに対応。ポイントを貯めながらアプリで取引詳しく見る →

引用元・参考リンク

openai.com

免責事項 — 当記事は情報提供を目的としており、特定の金融商品の売買を推奨するものではありません。投資判断はご自身の責任で行ってください。

数値

解釈

判断

引用元・参考リンク

OpenAI GPT-4 Technical Report

Anthropic Claude 3 Model Card

Google Gemini Technical Report

MMLU Benchmark: Measuring Massive Multitask Language Understanding

OpenAI Research - Scaling Laws for Neural Language Models

関連記事

AI教育が教育格差を解消する——LLMが個別最適化指導をユニバーサルにする構造変化

ヒューマノイドロボットの現在地：1万6000ドルのUnitreeと25万ドルのDigitが示すもの

AI動画生成市場、2年で6倍：115億ドルが示す産業転換の臨界点

AI導入企業の上位20%が利益の80%を独占する