AIゼーション vol.12

SWE-bench: AIプログラミング能力評価の新ベンチマーク

SWE-benchは、AIのプログラミング能力をより難易度の高いレベルで評価するために開発された最新のベンチマークで、2024年のICLRで発表されました。既存のベンチマークであるOpenAIのHumanEvalが比較的簡単な問題に焦点を当てているのに対し、SWE-benchは人間のエンジニアにとっても挑戦的とされる問題を含んでおり、より現実的な開発課題に近づけた内容となっています。

HumanEvalとの違い

HumanEvalではPythonの基本的なプログラム問題が164問出題され、AIは関数の実装が正確かどうかを基に正答率を測定されます。例えば、リストの最大要素を返す関数を作成するといった問題です。これに対し、SWE-benchの問題は以下のような複雑なコードと仕様に関する問題が多く、現実の開発現場で発生するような課題に近いものが含まれます。

SWE-benchの問題例

SWE-benchの代表的な問題として「KMeansアルゴリズムの結果が並列化によって異なる」というケースがあります。SWE-benchは、問題の再現コードや期待される結果、実際の結果、AIが考慮すべき実装上の議論が詳細に示されています。このように、SWE-benchの課題には問題の背景や実際の動作の再現が必要とされ、AIには問題解決に対する深い理解が求められる構造になっています。

この新しい評価基準は、AIの開発能力を実際のエンジニアリングの課題に即した形で評価するものとして注目を集めており、今後のAIモデルの進化を測る重要な指標となるでしょう。

それではまた、ごきげんよう!