
コードレビュー AI ベンチ:同一 PR を 5 ツールに渡した結果
コードレビューを AI に任せるのは、「動けばよい」というわけではありません。「見てほしい部分をきちんと見て、見落とさない」ツール選びが重要です。同じ PR を 5 つのツールに渡し、指摘の質を比較したベンチマークを公開します。
ベンチ条件
- 言語:TypeScript フロントエンド(Next.js + React 19)
- PR 規模:変更 6 ファイル・800 行
- 意図的に仕込んだバグ:N+1 クエリ、メモリリーク 1 箇所、テストの例外処理漏れ 2 箇所
- 評価軸:仕込んだバグを何個見つけたか/誤検出(実は OK なコードを「バグ」と指摘した数)
結果(仕込みミス検出数 / 誤検出数)
| ツール | 検出 | 誤検出 | スコア |
|---|---|---|---|
| Claude Opus 4.6 | 4 / 4 | 1 | ◎ 最高 |
| ChatGPT GPT-5 | 3 / 4 | 2 | ○ 良 |
| Cursor (Claude/Auto) | 4 / 4 | 1 | ◎ 最高 |
| GitHub Copilot | 2 / 4 | 0 | ○ 良(見逃し多め) |
| Cline (BYOK Claude) | 4 / 4 | 3 | △ 誤検出多め |
※ 1 ケースのみのため参考値です。チーム・言語ごとに改めてベンチを取ることをおすすめします。
考察 1:「見逃さない」だけでなく「誤検出を減らす」も重要
Cline(BYOK Claude)は検出数 4/4 ですが、誤検出も 3 と多めです。「バグを見つける」以上に、「誤検出を出さない」バランスが重要です。ノイズが多いツールはレビュアーを疲れさせます。
考察 2:IDE 統合型の強み
Cursor はレビュー対象のファイルだけでなく、「ファイル間の文脈」まで読み込んでレビューしてくれるため、「ここを修正したら他も壊れる」という気づきも得られます。Web チャットだけではやりにくい「複数ファイルにまたがる PR」のレビュー品質では、IDE 統合型が明らかに上です。
チームへの推奨
コードレビューの主軸は Cursor + Claude、もしくは Web の Claude。Copilot は提案の品質は高い一方、見逃しが多いので、シニアエンジニアのチェックとセットで使うのが現実的です。レビュー指示そのものを高品質にする 4 テンプレは コードレビュープロンプト集、5 ツール全体の比較は AI コーディングツール 5 選比較 を参照してください。
※ ベンチは 1 ケースの参考値。チームのコードベースや言語によって結果は変わります。