2026 年 4 月 28 日 公開 ・ 基準日 2026-04-28
コードレビュー AI ベンチ:同一 PR を 5 ツールに渡した結果
コードレビューを AI に任せるのは 「動けばよい」 というわけではなく、「見てほしい部分だけ見て、見逆しない」ツール選びが重要。同一 PR を 5 ツールに渡し、指摘の質を並べたベンチを公開します。
ベンチ条件
- 言語:TypeScript フロントエンド(Next.js + React 19)
- PR 規模:変更 6 ファイル・800 行
- 意図的に仕込んだ誤り:N+1 クエリ、メモリリーク 1 箸所、テストを 2 箸所例外処理漏れ
- 評価軸:仕込みミスを何個見つけたか、誤检出(実際には OK なコードを「バグ」と言う)の多寡
結果(仕込みミス検出数 / 誤检出数)
| ツール | 検出 | 誤检出 | スコア |
|---|---|---|---|
| Claude Opus 4.6 | 4 / 4 | 1 | © 最高 |
| ChatGPT GPT-5 | 3 / 4 | 2 | ○ 良 |
| Cursor (Claude/Auto) | 4 / 4 | 1 | ◎ 最高 |
| GitHub Copilot | 2 / 4 | 0 | ○ 良(見逃し多め) |
| Cline (BYOK Claude) | 4 / 4 | 3 | △ 誤检出多 |
※ 1回のケースしかやっていないため参考値。チーム・言語ごとにベンチし直しを推奨。
考察 1:「見ようとしない予防」も重要
Cline(BYOK Claude)は検出数 4/4 だが、誤检出も 3 と出ている。「見つける」以上に「見逸さず」「誤检出しない」両者のバランスが重要。ノイズが多いツールはチームを疲させる。
考察 2:IDE 統合型の強み
Cursor は結果だけでなく「ファイル間の文脈」まで読み込んでレビューしてくれるため、「ここを修正したら他も壊れる」というたぐい付きも可能。Web チャットだけではやりにくい「複数ファイルをまたぐ PR」のレビュー品質は、IDE 統合型が明らかに上。
チームへの推奨
コードレビュー主務は Cursor + Claude もしくは Web の Claude。Copilot は提言品質が高い代わりに見逃しが多いため、シニアの Web チェックとセットで使うのが現実解。
※ ベンチは 1 ケースの参考値。チームコードベースと言語に依存して結果は変わります。