Agent-as-a-Judge: Evaluate Agents with Agents 논문 리뷰

현대의 평가 시스템(과정은 무시하고 최종결과만 판단)은 agent system에 적절하지 않다.

agent system을 평가하기 위한 agent system을 제안한다. (code generation task) (DevAI dataset : 전문가 주석이 담긴 ai app 개발 데이터셋)

(DevAI dataset : 전문가 주석이 담긴 ai app 개발 데이터셋) 에 대해서 DevAI(agent-as-a-judge)는 사람의 평가와 90% 유사했다(LLM-as-a-judgesms 70%) 이는 비용과 성능 측면에서 더 유용할 수 있음을 시사한다.

{agent, human이 requirements, prerequisites 를 얼마나 만족했는지 check }

논문의 기여 - DevAI dataset 제공(agent 평가 데이터) - Agent-as-a-judge 도입 및 성능 증명

AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questionsfor Conversational Search with LLMs 논문리 (0)	2025.03.07
RAGAS: Automated Evaluation of Retrieval Augmented Generation 논문리뷰 (0)	2025.02.24
Mixture-of-Agents Enhances Large Language ModelCapabilities(MoA) 논문 리뷰 (0)	2025.02.20
MoE(Mixtral of Experts) 논문리뷰 (0)	2025.02.18
MoE(OUTRAGEOUSLY LARGE NEURAL NETWORKS:THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER) 논문리뷰 (0)	2025.02.18

나만보는AI학습지