目次

「ChatGPTはみんなが使うほど賢くなっていくんでしょ?」「私との会話も学習に使われているはず」——こう思っている人は少なくない。AIが「自己学習する」「使うほど進化する」というイメージは広く浸透しているが、これは現在のLLMの実際の動作とは異なる。

学習と推論は別のプロセスであり、両者を混同するとAIの能力について根本的に誤った期待を持つことになる。

訓練(学習)フェーズとは何か

LLMが「学習する」プロセスは**訓練(Training)**と呼ばれる。これは、大量のテキストデータを使って、モデルの内部パラメータ(重み)を調整する作業だ。

訓練の仕組みを簡単に説明する。モデルはテキストの一部を入力として受け取り、次のトークンを予測しようとする。予測と正解(実際に続くトークン)を比較し、誤差を計算する。その誤差を元に「バックプロパゲーション(誤差逆伝播)」と呼ばれる計算を行い、数百億のパラメータをわずかに調整する。この作業を数十億〜数兆のトークン規模のデータに対して繰り返す。

このプロセスには膨大な計算資源が必要だ。大規模なモデルの訓練には数千台のGPUを数ヶ月間稼働させる必要があり、コストは億円単位に達する。訓練は特定の期間に集中的に行われ、完了するとモデルのパラメータは固定される。

推論(Inference)フェーズとは何か

一方、私たちが普段ChatGPTやClaude等を使っているとき、LLMが行っているのは**推論(Inference)**だ。

推論とは、固定されたパラメータを使って、入力(プロンプト)に対する出力(応答)を計算するプロセスだ。訓練で「固定された」モデルに質問を投げると、その固定されたパラメータに基づいて回答が生成される。

重要なのは、推論中にパラメータは変化しない点だ。どれだけ多くの人が会話を重ねても、その会話の内容によってモデルの重みが更新されることはない。あなたが今日LLMに教えた「正確な情報」は、明日の別のユーザーの回答に直接反映されることはない。

「学習しているように見える」理由

では、なぜLLMが「学習している」ように感じるのか。

一つは**コンテキスト内学習(In-Context Learning)**だ。会話が続く間、それまでのやり取りはすべてコンテキストウィンドウに保持される。LLMは「あなたが前の発言でこう述べた」という情報をコンテキストから参照して回答を生成する。これは学習ではなく、提供された情報の参照だ。会話が終わり、新しいセッションが始まれば、その「記憶」は消える。

もう一つはFew-shot Learningの効果だ。会話の中でいくつかの例を示すと、LLMはその例のパターンに従った回答を生成しやすくなる。これも、新しい情報を学習しているのではなく、コンテキスト内の情報を条件として利用しているにすぎない。

サービスが定期的にアップデートされること(OpenAI等が定期的に新しいバージョンをリリースすること)も「成長している」という印象を与える。しかしこれは別の訓練セッションによる新しいモデルへの置き換えであり、使用によって「育った」わけではない。

ファインチューニングとRAGの違い

ここで、LLMに知識や能力を追加する2つの手法の違いを整理しておきたい。

**ファインチューニング(Fine-tuning)**は、訓練済みの基盤モデルに対して、特定のタスクや知識のデータを使って追加の訓練を行う手法だ。これは「学習」であり、パラメータが更新される。ただしこれも、リアルタイムの会話から自動的に行われるのではなく、意図的に設計された訓練プロセスとして実行される。

**RAG(Retrieval-Augmented Generation)**は、外部データベースの情報を検索して、プロンプトに注入する手法だ。これは「学習」ではなく「参照」だ。モデルのパラメータは変わらず、その都度必要な情報を外部から取得して活用する。最新情報や特定のドメイン知識へのアクセスに向いているが、モデル自体が「賢くなる」わけではない。

真の意味での「リアルタイム学習」の現状

「使うほど賢くなるAI」は技術的には不可能ではない。**オンライン学習(Online Learning)継続学習(Continual Learning)**と呼ばれる研究分野が存在し、モデルが新しいデータで逐次更新される仕組みが研究されている。

しかし現在の主要なLLMサービスは、この仕組みをリアルタイムでユーザーの会話から適用していない。理由はいくつかある。一つは計算コストだ。推論のたびにバックプロパゲーションを走らせるコストは現実的ではない。もう一つは安全性だ。悪意のあるユーザーが意図的に誤情報を「学習させる」攻撃(ポイズニング攻撃)へのリスクが生じる。さらに「破滅的忘却(Catastrophic Forgetting)」という問題もある。新しい情報を学習すると既存の知識が上書き・劣化するという、ニューラルネットワークの本質的な課題だ。


まとめ

現在のLLMにおいて、訓練と推論は明確に分離されている。

訓練は特定の期間に行われ、大量のデータとコストをかけてパラメータを確定させる。推論は固定されたパラメータを使って行われ、会話がどれだけ続いてもパラメータは変わらない。

「AIは使われるほど賢くなる」という信念は、AIへの期待を高める半面、実際の能力と限界を誤解させるリスクがある。AIを道具として適切に評価し、使いこなすためには、この基本的な仕組みの理解が出発点となる。

免責事項 — 掲載情報は執筆時点のものです。料金・機能は変更される場合があります。最新情報は各公式サイトをご確認ください。