[ Abstract ]
현대의 평가 시스템(과정은 무시하고 최종결과만 판단)은 agent system에 적절하지 않다.
agent system을 평가하기 위한 agent system을 제안한다. (code generation task) (DevAI dataset : 전문가 주석이 담긴 ai app 개발 데이터셋)
(DevAI dataset : 전문가 주석이 담긴 ai app 개발 데이터셋) 에 대해서 DevAI(agent-as-a-judge)는 사람의 평가와 90% 유사했다(LLM-as-a-judgesms 70%) 이는 비용과 성능 측면에서 더 유용할 수 있음을 시사한다.
{agent, human이 requirements, prerequisites 를 얼마나 만족했는지 check }
논문의 기여 - DevAI dataset 제공(agent 평가 데이터) - Agent-as-a-judge 도입 및 성능 증명