Google Developers ブログ記事
Closing the knowledge gap with agent skills | Google Developers Blog
目次

2026 年 3 月 25 日、Google DeepMindAgent Skillsを活用して、AI エージェントの知識格差を解消する取り組みを公開した。

本稿はこの取り組みの概要、構築したスキル、そして評価結果を解説する。

知識格差の問題

大規模言語モデル(LLM)は、特定の時点で訓練された固定知識を持つ。

しかし、ソフトウェアエンジニアリングプラクティスは急速に変化する。

  • 新しいライブラリが毎日リリースされる
  • ベストプラクティスが急速に進化する
  • モデルは訓練時に自分自身について知らない
  • SDK の変更やベストプラクティスの微妙な変化に気づかない

これにより、言語モデルだけでは解決できない知識格差が生じる。

解決策:Agent Skills

Agent Skillsは、この格差を埋めるための非常に軽量だが効果的な方法だ。

Google DeepMind は、SDK メンテナーであれば誰でも可能なことを探求するために、Gemini API 開発者スキルを構築した。

構築したスキル

Gemini API で構築するコーディングエージェントを支援するために、以下のスキルを構築した。

  1. API の高レベル機能セットの説明
  2. 各言語の現在のモデルと SDK の説明
  3. 各 SDK の基本的なサンプルコードのデモンストレーション
  4. ドキュメントエントリーポイントのリスト(信頼できる情報源として)

これは、エージェントが最新のモデルと SDK を使用するように導く基本的なプリミティブ命令のセットだ。

重要な点は、情報源から最新情報を取得することを促すために、ドキュメントを参照することだ。

インストール方法

このスキルは GitHub で利用可能だ。

# Vercel skills でインストール
npx skills add google-gemini/gemini-skills --skill gemini-api-dev --global

# Context7 skills でインストール
npx ctx7 skills install /google-gemini/gemini-skills gemini-api-dev

評価ハルネス

Google DeepMind は、スキルパフォーマンスを評価するための117 プロンプトを持つ評価ハルネスを作成した。

評価カテゴリ

プロンプトは以下のカテゴリで評価される。

  • エージェントコーディングタスク
  • チャットボットの構築
  • ドキュメント処理
  • コンテンツのストリーミング
  • 特定の SDK 機能

評価方法

テストは以下の 2 つのモードで実行された。

  1. バニラモード - モデルを直接プロンプト
  2. スキル有効モード - スキルを有効にして評価

スキルを有効にするために、モデルには Gemini CLI が使用する同じシステム命令 と、2 つのツール(activate_skillfetch_url)が与えられる。

プロンプトは、古い SDK の 1 つを使用した場合、失敗とみなされる。

評価結果

トップライン結果

  • 最新の Gemini 3 シリーズは、gemini-api-dev スキルの追加で優れた結果を達成
  • ベースラインが低い - スキルなしでは 6.8%(3.0 Pro と Flash 両方)、28%(3.1 Pro)
  • 古い 2.5 シリーズも恩恵を受けるが、それほど大きくない
  • 強力な推論サポートを持つ最新モデルが違いを生む

全カテゴリで良好なパフォーマンス

スキル追加は、トップパフォーマー(gemini-3.1-pro-preview)のほぼ全ドメインで効果的だった。

SDK 使用が 95% で最も低い合格率だった。

これには目立った理由はない。失敗したプロンプトは、難しいまたは不明確なリクエストを含むが、特に Gemini 2.0 モデルを明示的にリクエストするプロンプトが含まれている。

失敗例

SDK 使用カテゴリの失敗例:

Python api で gemini 2.0 flash モデルを使用する場合、出力が非常に長い場合、返されるコンテンツは全体ではなく出力チャンクの配列になります。ある種のストリーミング入力を行っていると思います。これをオフにして、全体の出力を一緒に取得するにはどうすればよいですか

このプロンプトは、全モデルで失敗した。

スキルの課題

これらの初期結果は非常に有望だが、Vercel の仕事から、AGENTS.md を介した直接命令の方がスキルよりも効果的であることがわかっている。

そのため、Google DeepMind はMCP を直接使用してドキュメントを提供するなど、SDK のライブ知識を提供する他の方法を探求している。

課題

  • スキルのシンプルさ - 大きな利点だが、優れたスキル更新ストーリーがない
  • 手動更新 - ユーザーが手動で更新する必要がある
  • 古い情報 - 長期的には、古いスキル情報がユーザーのワークスペースに残り、害を及ぼす可能性がある

結論:スキルによる知識格差の解消

Google DeepMind の取り組みは、Agent Skills を活用して AI エージェントの知識格差を解消する可能性を示している。

  • 軽量で効果的 - Agent Skills は非常に軽量だが効果的
  • 最新情報 - ドキュメントを参照して最新情報を取得
  • 評価済み - 117 プロンプトで評価済み
  • 継続的改善 - モデル更新に合わせて維持

Gemini API スキルはまだ非常に新しいが、モデル更新を推進するにつれて維持され、改善のためのさまざまな経路を探求していく予定だ。


参考:

引用元・参考リンク

免責事項 — 掲載情報は執筆時点のものです。料金・機能は変更される場合があります。最新情報は各公式サイトをご確認ください。