
GPT-5.5 レビュー:エージェンティックコーディング特化で何が変わったか
OpenAI は 2026 年 4 月 24 日、GPT-5.5 を API および ChatGPT(Plus / Pro / Business / Enterprise)と Codex に公開しました。最大の特徴は「賢さ」よりも 「タスクを最後までやり切るエージェント力」。本記事では、エージェンティックコーディング・コンピュータ操作・知識労働の観点で GPT-5.5 を評価し、Claude Opus 4.7 / Gemini 3.1 Ultra との使い分けを提案します。
結論:こういう人におすすめ
| あなたの状況 | GPT-5.5 を選ぶ理由 |
|---|---|
| コーディングタスクをエージェントに丸投げしたい | Terminal-Bench 2.0 で 82.7% の SOTA、長尺タスク完走率が高い |
| PC・ブラウザ操作を自動化したい | OSWorld-Verified 78.7%、コンピュータ操作が実用域に |
| 調査 → 資料 → スプレッドシートまで一気通貫 | ツールを跨いでタスク完了まで自走する設計 |
| トークン効率(コスト)も重視 | 少ないトークン・少ない再試行で高品質に到達 |
GPT-5.5 の位置付け:「賢さ」から「実行力」へ
これまでの GPT 系は「1 回の応答の賢さ」を競ってきました。GPT-5.5 は方向性が変わり、「曖昧で複数ステップのタスクを渡しても、計画し、ツールを使い、自分の作業を検証しながら最後まで進める」ことに重点を置いています。OpenAI 自身も「業務(work)モデル」と位置付け、コーディング・コンピュータ操作・知識労働・初期段階の科学研究での進歩を強調しています。
ベンチマーク(2026-04 時点)
| ベンチ | 測定内容 | GPT-5.5 |
|---|---|---|
| Terminal-Bench 2.0 | 複雑なコマンドライン作業(計画・反復・ツール協調) | 82.7%(SOTA) |
| SWE-Bench Pro | 実際の GitHub Issue 解決(1 パス) | 58.6% |
| OSWorld-Verified | 実環境でのコンピュータ自律操作 | 78.7%(前世代 GPT-5.4 は 75.0%) |
特に Terminal-Bench の 82.7% は、CLI ベースの開発エージェント(Codex や Claude Code 相当の作業)でこれまでにない完走率を示しています。
3 つの強化ポイント
1. エージェンティックコーディング
現時点で最強クラスのエージェンティックコーディングモデル。GitHub Issue を渡すと、コードを書き、テストを実行し、失敗したら自分で直すループを 1 パスで完了する確率が前世代より明確に向上。NVIDIA インフラ上で Codex を駆動する構成も発表されています。
2. コンピュータ操作(Computer Use)
OSWorld-Verified が 75.0% → 78.7% に改善。「すべてのステップを人が細かく管理する」のではなく、「散らかった複数パートのタスクを渡して、計画・ツール利用・検証・曖昧さの突破を任せる」使い方が現実的になりました。OpenAI Operator 系のブラウザ操作もこのモデルが基盤になります。
3. トークン効率
単に賢いだけでなく、「より少ないトークン・より少ない再試行で高品質な出力に到達する」効率性も改善。エージェント用途はトークン消費が膨らみやすいため、この効率改善は実コストに直結します。
料金プラン(2026-05 時点)
- GPT-5.5(標準):入力 $5 / 出力 $30(100 万トークンあたり)
- GPT-5.5 Pro:入力 $30 / 出力 $180(100 万トークンあたり)
- ChatGPT:Plus / Pro / Business / Enterprise で利用可、Codex にも統合
月額サブスクの考え方は ChatGPT Plus vs Claude Pro、複数ツールの合算コストは AI コスト計算機 で確認できます。
Claude Opus 4.7 / Gemini 3.1 Ultra との比較
| 観点 | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Ultra |
|---|---|---|---|
| エージェンティックコーディング | ★★★★★(Terminal-Bench 82.7%) | ★★★★★(長尺完走に定評) | ★★★★☆ |
| コンピュータ操作 | ★★★★★(OSWorld 78.7%) | ★★★★★(Computer Use) | ★★★★☆ |
| 長文文脈 | 大(数十万トークン級) | 200K / 1M Beta | 2M(最大級) |
| マルチモーダル | ★★★★★ | ★★★★☆ | ★★★★★(ネイティブ音声・動画) |
| 入力 / 出力料金(per 1M) | $5 / $30 | $15 / $75 | 上位プランに同梱 |
使い分けの目安:
- コーディング・PC 操作を自走させたい → GPT-5.5
- 超長文の一括読解(書籍 1 冊レベル)→ Gemini 3.1 Ultra
- 長尺の議論・推論・安全性重視 → Claude Opus 4.7
3 モデルの実測比較は 2026 年春 AI 性能比較ベンチ、ChatGPT vs Claude vs Gemini も参照してください。
得意なタスク
- エージェント開発:GitHub Issue → 実装 → テスト → デバッグまで自律
- 業務自動化:複数 SaaS を跨ぐデータ転記・レポート作成
- 調査 → 資料化:Web リサーチからドキュメント・スプレッドシート生成まで
- 知識労働全般:分析・文書作成・ソフト操作の複合タスク
苦手・注意点
- エージェント用途のトークン消費:タスクあたりのトークンが多く、単価が安くても総額が膨らみやすい
- 不可逆操作のリスク:自走力が高い分、送金・削除など取り返しのつかない操作はサンドボックス必須
- 超長文では Gemini 3.1 に劣る:2M トークン級の一括読解は Gemini が優位
- 機密データ:業務機密は 法人 AI 利用ガイドライン の整備が前提
実用ワークフロー:開発エージェントとして使う
- Codex / API 経由で GPT-5.5 にリポジトリと Issue を渡す
- テスト・lint の実行コマンドを明示(自己検証ループの土台)
- 「N 回失敗したら停止して報告」の停止条件を設定
- 生成された PR を人間がレビュー(自動マージはしない)
- トークン消費・コストを監視し、定型タスクは安価なモデルに振り分け
エージェント導入の全体像は AI エージェント実装ガイド、ツール連携の標準は MCP 入門 を参照。
関連記事
結論
GPT-5.5 は 「賢さの競争」から「実行力の競争」へという AI のフェーズ転換を象徴するモデルです。エージェンティックコーディングとコンピュータ操作で現時点の最強クラスにあり、業務自動化を本気で進めたい個人・企業の第一候補。一方でトークン消費の管理は必須で、用途に応じて Claude Opus 4.7・Gemini 3.1 Ultra・安価なモデルと使い分けるのが 2026 年の現実解です。
※ 仕様・料金・ベンチマークは 2026-05 時点の公開情報に基づきます。openai.com 公式で最新情報をご確認ください。