Lab Research GPT-5世代のLLM:3年で推論コストは120分の1になった
目次

GPT-4相当クラスのAPI推論コストは、2023年初頭の60ドル/Mトークンから2026年Q1に0.5ドル/Mトークンへと3年で120分の1に低下した。

この数字が意味するのは技術的進歩ではなく、ビジネス構造の変化だ。AIエージェントが何万回もLLMを呼び出すことが経済的に成り立つ時代になった。


数値

コストは対数スケールで落ちている。2024年以降はGPT-4o相当クラスが別トラックで登場し、さらに低価格帯のセグメントが生まれた。コスト曲線は2本になった。


解釈

パラメータ数の話をする人はまだ多いが、MMLUスコアで見るとGPT-3(175B)の70%からGPT-5(推定10T)の94%まで改善しても伸びは約24ポイントだ。一方でコストは3年で99%以上低下した。非線形な改善はパラメータ側ではなくコスト側で起きている。

コスト低下の要因は3つある。第一にMixture of Experts(MoE)アーキテクチャによる推論時の計算量削減、第二に量子化・蒸留技術の成熟、第三にH100/B200等の専用チップのスループット向上だ。パラメータを増やしながら推論コストを下げるという「両立」が可能になった。

GPT-5が示したもう一つの変化はTest-Time Compute(推論時計算)だ。回答前に長い思考チェーンを生成し、より正確な結論を出す。これは「推論品質」をコスト投入量で制御できることを意味する。高精度が必要なタスクは多く考えさせ、簡単なタスクは素早く答えさせる、という使い分けが明示的になった。


判断

コスト低下の恩恵を最も受けるのはAIエージェント系のアプリケーションだ。人間との1往復の対話ではなく、数百回のLLM呼び出しを伴うワークフローが経済的に成立する。ソフトウェア開発の自動化、医療レポート処理、法律文書解析——いずれも2024年時点では試算上コストが合わなかったが、2026年は別の計算になる。

投資家として見るべき指標はパラメータ数でもMMLUスコアでもなく、推論コスト×ユースケース別のROIだ。モデルそのものより、コスト低下を活用したアプリケーション層のほうが短期の投資機会として具体的だ。

DMM株日本株・米国株・NISAに対応。ポイントを貯めながらアプリで取引詳しく見る →

引用元・参考リンク

免責事項 — 当記事は情報提供を目的としており、特定の金融商品の売買を推奨するものではありません。投資判断はご自身の責任で行ってください。