強化学習とRLHFの関係——ChatGPTが人の好みを学習した仕組み

Lab AI 強化学習とRLHFの関係——ChatGPTが人の好みを学習した仕組み

大規模言語モデル（LLM）が事前学習だけで終わるならば、インターネット上のあらゆるテキストパターンを学習したモデルが生まれる。問題は、インターネットには有害なコンテンツ、誤情報、人を傷つける表現が大量に存在することだ。事前学習済みモデルは指示に従う能力も乏しく、「有益で、無害で、誠実な」助手としては機能しない。

この課題を解決するために開発されたのが**RLHF（Reinforcement Learning from Human Feedback、人間のフィードバックからの強化学習）**だ。本稿ではRLHFの3ステップの仕組みと、その後継手法について解説する。

通常の強化学習との違い

まず、通常の強化学習（RL）との違いを整理しよう。

通常のRLでは、エージェントは環境と相互作用し、報酬シグナルを受け取りながら行動方針（ポリシー）を最適化する。囲碁やチェスのように、「勝ち負け」という明確な報酬関数を設計できる場合には非常に効果的だ。

しかしLLMの場合、「良い応答」の定義は多様で曖昧だ。「質問に正確に答えているか」「適切なトーンか」「倫理的に問題ないか」「ユーザーが実際に満足するか」——これらを自動的に評価する報酬関数を手作業で設計することは極めて困難だ。

RLHFは「人間の好みそのものを報酬モデルとして学習する」ことでこの問題を解決する。

RLHFの3ステップ

ステップ1：教師ありファインチューニング（SFT）

事前学習済みモデルに、人間が作成した高品質な対話データでファインチューニングを行う。

人間のアノテーターが「理想的な応答」を書き下し、それを教師データとして使う。モデルは「どのような質問に対してどのように答えるべきか」の基本的なパターンを学ぶ。

SFTだけでも、事前学習モデルよりはるかに使いやすいモデルが得られる。しかし、アノテーターが書き下せるデータ量には限界があり、すべてのシナリオをカバーするには不十分だ。

ステップ2：報酬モデル（RM）の学習

SFTモデルから複数の応答を生成し、人間のアノテーターがどちらの応答がより良いかを比較評価する。この比較データを使って、「人間の好みを予測する報酬モデル」を学習する。

具体的な手順：

同じプロンプトに対してSFTモデルが複数の応答を生成する（例：応答Aと応答B）
人間のアノテーターが「AとBのどちらが良いか」を評価する
この比較データ（ペア比較データ）を使って報酬モデルを学習する

報酬モデルは、「この応答に対して人間はどれほど満足するか」をスコアとして出力する回帰モデルだ。Bradley-Terryモデルなどの選好モデリング手法を用いることが多い。

ペア比較を使う理由は、絶対評価（「この応答は10点満点で7点」）より、相対評価（「AよりBの方が良い」）の方が人間にとって一貫性のある評価が容易なためだ。

ステップ3：PPOによるポリシーの最適化

学習した報酬モデルを使い、強化学習アルゴリズムのPPO（Proximal Policy Optimization）でSFTモデルをさらに最適化する。

PPOの役割は、「報酬モデルのスコアを最大化する応答を生成するよう」モデルを調整することだ。

しかし、単純に報酬モデルのスコアを最大化するだけでは問題が生じる。モデルが「報酬モデルを騙す」ような応答を学習してしまうリスクだ（報酬ハッキング）。例えば、人間受けする特定のパターンを過剰に使い、実際の質問に答えられなくなる。

この問題を防ぐため、PPOの目標関数にはKLダイバージェンス（KL Divergence）ペナルティが組み込まれる：

目標 = 報酬モデルスコア - β × KL(π_RL || π_SFT)

KLダイバージェンスはRLHF後のモデル（π_RL）とSFTモデル（π_SFT）の確率分布の乖離を測る。β はKLペナルティの強さを制御するハイパーパラメータだ。

この制約により、モデルはSFTモデルの基本的な挙動から大きく外れることなく、報酬モデルのスコアを改善する方向に学習できる。

RLHFの限界

RLHFは強力な手法だが、いくつかの重要な限界がある。

スケールの問題： 高品質なペア比較データの収集は、専門家アノテーターの時間と費用を大量に消費する。より多くのデータを集めるほどモデルは良くなるが、コストが膨大になる。

報酬ハッキング： 報酬モデルは完璧ではない。モデルが報酬モデルのスコアを最大化するためだけに最適化されると、人間が意図しなかった奇妙な挙動（「ゲーミング」）が生まれることがある。

アノテーターのバイアス： 人間のアノテーターは文化的・個人的バイアスを持つ。「より良い応答」の判断は評価者によって異なり、報酬モデルに偏りが組み込まれるリスクがある。

最適化の不安定性： PPOは複雑なアルゴリズムで、ハイパーパラメータの調整が難しく、学習が不安定になりやすい。

DPO：RLHFの後継手法

RLHFの複雑さと不安定性を解決しようとする手法として登場したのが**DPO（Direct Preference Optimization）**だ。

DPOはRLHFの数学的構造を解析し、「報酬モデルを陽に学習することなく、ペア比較データから直接ポリシーを最適化できる」ことを示した。

RLHFが「報酬モデルの学習 → PPOによる最適化」の2段階を踏むのに対し、DPOは1段階で完結する。損失関数も単純なバイナリクロスエントロピーで表現され、実装が大幅に簡略化される。

DPOは実装が簡単でPPOより安定しているため、多くのオープンソースモデルのアライメントに採用されている。ただし、RLHFより性能が劣るケースもあり、研究コミュニティでは継続的な比較・改良が行われている。

IPO、ORPO、SimPOへの発展

DPO以降も、様々な改良版が提案されている。

IPO（Identity Preference Optimization）： DPOが報酬モデルに対して過学習するリスクを軽減するための正則化を追加した手法。

ORPO（Odds Ratio Preference Optimization）： SFTフェーズとアライメントフェーズを統合し、1回の学習で両方を達成する手法。

SimPO（Simple Preference Optimization）： 参照モデル不要でシンプルな実装を実現した手法。

これらの手法はRLHFの本質的な問題（報酬ハッキング、スケーラビリティ、実装複雑性）に様々な角度からアプローチしており、LLMアライメントは現在も活発な研究領域だ。

まとめ

RLHFはLLMを「使いやすく、有益で、安全な」モデルに変換する重要な技術だ。教師ありファインチューニング、人間の比較評価による報酬モデル学習、PPOによる強化学習という3ステップで、人間の好みをモデルの挙動に組み込む。

ただし、報酬ハッキング、アノテーターバイアス、スケールコストという本質的な課題も存在する。DPOをはじめとする後継手法は、RLHFの複雑さを軽減しながら同等以上のアライメント性能を目指している。LLMのアライメント技術は、AIの安全性・有用性の根幹を担う重要な研究領域として今後も進化し続けるだろう。

#RLHF #強化学習 #LLM #アライメント

免責事項 — 掲載情報は執筆時点のものです。料金・機能は変更される場合があります。最新情報は各公式サイトをご確認ください。