Survey on Evaluation of LLM-based Agents

논문 링크 : https://arxiv.org/pdf/2503.16416

[ Abstract ]

plannig, reasoning, tool using, memory usage을 활용하는 agent가 대세다.

본 논문은 agent의 평가에 대한 survey 논문 agent evaluation benchmark and framework에 대한 분석

agent의 근본적인 핵심 능력 (planning, tool usage, self-reflection, memory)
특정 도메인 특화 agent 벤치마크
범용 agent 벤치마크
agent 평가 framework 본 논문은 agent 평가에 대한 정리이자 향후 연구에 대한 이정표가 된다.

[ Introduction ]

llm은 single-turn의 텍스트 입출력에 제한된다. llm기반 agnet는 multi-step의 흐름으로 진행되며 llm 간의 상태를 공유하고 유지함으로써 문맥의 일관성을 제공한다. 또한 tool을 활용하여 계산하고, 외부 지식에 접근하며, 외부 환경과 상호 작용이 가능하다. Agent의 신뢰성 있는 평가는 필수적이다. LLM의 평가와 일부 겹치지만 더 포괄적인 능력을 평가하기 위한 벤치마크, 환경, 지표가 필요하다.

— 해석할 논문 overview —

Agent의 공통 능력에 대한 평가 방법
evaluation framework

[ Agent 능력 평가 ]

2-1. Planning & Multi-step Reasoning

계획과 다단계 수립은 agent가 복잡한 작업을 효과적으로 해결하는데 기반이 된다. 이런 다단계 수립 능력을 평가하기 위해서 특화된 벤치마크가 개발되었다.

(수학적 추론, 다중 추론 기반 QA, 과학적 추론, 논리 추론…) 이 중 일부 벤치마크는 ReAct와 같은 Agent 기반 접근법에 맞춰 설계됨 최근 연구들은 llm의 planning의 능력을 타켓으로 한 프레임워크 개발 이를 검증하기 위한 다양한 벤치마크 개발 : (상태 추적과 오류 복구 능력이 필수, 최신 llm도 장기 계획 세우기 어렵다, 단기 계획은 강점을 보이나, 장기 전략 계획에 한계를 보임)

이러한 벤치마크를 통해 agent 계획 수립을 위한 핵심 능력 강조

Task decomposition
state tracking, belief maintenance
self-correction (실행 중 오류 감지 및 복구)
causal understanding (행동의 결과 예측 능력)
meta-planning (전략을 재 조정 능력)

2-2. Function calling & Tool Use

실사간으로 문맥에 맞는 정확한 응답을 가능하게 하는 외부 도구와 상호작용하는 능력은 agent의 필수요소다. function calling은 단일 작업이 아닌 다단계 처리 흐름을 가진다.

intent Recognition (도구 호출 판단)
Function Selection (도구 종류 선택)
Parameter Mapping (파라미터 정보 추출, 함수 매핑)
Function Execution (함수 실행)
Response Generation (반환 결과를 기반으로 응답진행)

관련 벤치마크도 단순한 function call을 테스트하는게 아닌 상태 유지, 멀티턴, tool chaning등을 평가 가능하게 진행

2-3. Self-Reflection

최근 연구는 Agent가 성찰을 통해 자신의 추론을 개선하여 오류를 줄이는지에 대한 초점 논의 기존 태스크는 멀티턴 피드백 루프를 통해서 구성 → 최종 정답만 수정되었는가 확인 여부를 통해 확인 → 모호

2-4. Memory

agent에서 메모리는 긴 문맥처리, 정보 검색 능력 향상등. 문처 처리나 대화 유지와 같은 문맥 유지를 보장

[ Evaluation Framework ]

— Final REsponse Evaluation : LLM을 통한 정답 일치, 적절성등을 평가

— Stepwise Evaluation : action에 대한 개별 평가 지원, 에러 원인 발견 가능, 현재 stepwise평가는 적용 범위와 신뢰도의 문제가 있음, 많은 평가들이 task-specific에 최적화 되어있어 일반화 하기 어렵다. 범용적인 평가는 넓은 평가를 가지지만 판단 명확한 품질 보장을 할 수 없다.

— Trajectory-based Assessment : Stepwise평가 이외에도 Trajectory 기반 평가를 지원하기도 한다: 도구 선택과 도구 사용 순서 평가

[ Conclusion ]

LLM 기반 에이전트 평가 분야는 시스템이 점점 더 복잡하고 자율화됨에 따라 빠르게 발전하고 있으며, 보다 현실적이고 도전적인 벤치마크들이 등장하고 있다.

하지만 여전히 안전성, 세밀한 평가, 비용 효율성 측면의 한계가 남아 있으며, 이를 해결하는 것이 실제 환경에서의 책임 있는 에이전트 개발과 효과적인 배포에 필수적이다.

저작자표시 비영리 변경금지

'AI_Paper > NLP' 카테고리의 다른 글

Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena 논문 리뷰 (1)	2025.03.12
AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questionsfor Conversational Search with LLMs 논문리 (0)	2025.03.07
RAGAS: Automated Evaluation of Retrieval Augmented Generation 논문리뷰 (0)	2025.02.24
Agent-as-a-Judge: Evaluate Agents with Agents 논문 리뷰 (0)	2025.02.21
Mixture-of-Agents Enhances Large Language ModelCapabilities(MoA) 논문 리뷰 (0)	2025.02.20

나만보는AI학습지

Survey on Evaluation of LLM-based Agents

'AI_Paper > NLP' 카테고리의 다른 글

티스토리툴바

Survey on Evaluation of LLM-based Agents

'AI_Paper > NLP' 카테고리의 다른 글

'AI_Paper/NLP' Related Articles

티스토리툴바