METRの研究が示す、AIが経験豊富な開発者を遅らせること

METRの研究が示す、AIが経験豊富な開発者を遅らせること

TLDR : METRの研究によれば、AIを使うことで経験豊富な開発者が遅くなることが示されています。AIの使用は即時的な生産性向上を保証しないということです。

AIがまだ生産性向上の約束を果たしていないのではないか? 独立系研究所METR (Model Evaluation and Transparency Research)によって2025年上半期に行われた実験的な研究は、確信を揺るがします。オープンソースリポジトリ上で実際の条件下でテストされた熟練の開発者たちは、AI生成ツールを使用した場合、使用しない場合に比べて平均19%遅くなりました。参加者自身がAIがより速く進むのに役立ったと誤って考えていただけに、この予期せぬ結果はより衝撃的です。
従来のベンチマークであるSWE-Bench VerifiedやRE-Benchなどは、AIモデルの急速な進化を測定するのに役立ちました。しかし、これらの評価は多くの場合文脈から切り離されており、個別の標準化されたタスクに焦点を当て、自動的に評価されることが多く、日常のソフトウェア作業の実践的な要求や暗黙の制約からは遠いです。
生成AIがソフトウェア開発に与える実際の影響について信頼できる結論を得るために、METRは言語モデルに数百時間の経験を持ち、オープンソースの成熟したプロジェクトに平均5年間貢献している16人の開発者を採用しました(22,000のGitHubスター、100万行以上のコード)。
ランダム化比較試験(RCT)の方法論は簡単な原則に基づいています:彼らの日常業務(バグ、リファクタリング、機能の改善)の一部である246の技術的問題に対して、AI(主にCursor ProとClaude 3.5/3.7)の使用をランダムに許可するか否かを決定し、その解決時間を測定します。
作業時間は自己申告され、画面記録で補完されました。提出されたプルリクエストを通じて、成果物は質的に評価されました。

認識と現実のギャップ

経験豊富な開発者たちは、AIによる24%の加速を予測していました。実験終了時にはこの推定はやや低下しましたが、それでも楽観的であり、20%の時間短縮が感じられました。
実際には、AIを用いたタスクはそうでないものより平均で19%多く時間がかかり、参加者の予想に逆らうだけでなく、経済学(−39%)や機械学習(−38%)の分野の外部専門家によって立てられた予測にも反しています。

複数の説明

METRは、この遅れを説明する5つの主要な要因を特定しています:
  • ツールの不完全な使用、特に単純すぎるプロンプト;
  • CursorなどのAIインターフェースに対するまだ限られた親しみ;
  • 研究されたプロジェクト内の高い品質基準が、生成された提案と時に非互換であること;
  • 複雑なケースを十分にカバーしていないモデル;
  • AIとの実験に関連した認知的な気晴らしの形。
他の仮説、特に測定エラーや方法論の欠陥は、分析によって排除されました。
すべての状況でAIがすべての開発者のパフォーマンスを損なうと結論づけるのではなく、この研究は主に生産性の向上が即時的でも自動的でもないことを強調しています:それはツール、タスク、職業的文脈の微細な調整に依存します。