(논문 링크 : https://arxiv.org/pdf/2306.05685)
[ Abstract ]
기존의 벤치마크들은 인간의 선호도를 측정하기 부족하기 때문에, llm의 광범위한 기능을 평가하기 어렵다.
이 문제를 해결하기 위해 LLM을 심판(평가자)로 활용하여 개방적인 질문(open-ended question)에 대한 평가를 진행한다.
gpt-4와 같은 강력한 llm은 사람의 선호도와 높은 수준으로 일치하며, 80%이상 일치도를 보임
[ Introduction ]
사용자의 선호도 높아진다고 LLM 벤치마크 점수가 향상되지는 않는다. (챗봇의 유용성과 벤치마크 평가 기준에 차이가 있다.)
-> 이러한 차이는 기존의 평가방식이 llm의 핵심 능력(제한된 작업)만 측정하기 때문
이를 연구하기 위해 (MT-bench, 챗봇 아레나) 벤치마크 제안
[MT-bench and Chatbot Arena]
기존의 llm벤치마크는 closed-ended 질문과 짧은 응답 평가에 초점을 맞춤 챗봇의 유용성을 평가 할 수 있지만 기존 벤치마크에서 고려되지 않았던 human preference를 고려하기 위해 2가지 벤치마크 제안
- MT-bench : preference(multi-tern 대화, 지시사항 수행능력)평가를 위한 80개(8개의 주제)의 멀티턴 대화로 구성됨
- Chatbot-Arena : 익명의 챗봇 간 답변 선택 플랫폼
MT-bench는 멀티턴 대화 및 지시사항 처리 능력 평가(수학 및 추론과 같은 핵심 령량도 구별할 수 있게 설계)
챗봇 아레나는 두개의 챗봇에 대한 선호도를 기반으로 답변 평가 사람이 평가하는게 가장 신뢰할 수 있는 방법이지만, 느리고 비싸다.
이 과정을 자동화 하기위해 gpt-4와 같은 llm으로 대채 방안 연구(RLHF와 같은 human alignment가 수행되었기 때문에) → llm-as-a-judge로 제안
llm-as-a-judge와 human평가 비교 결3과 gpt-4의 평가결과가 human평가와 일치율이 80이상(인간 평가자들의 일치율과 동일), 즉 llm-as-a-judge는 신속한 human평가의 대안이 될 수 있다.
[ LLM-as-a-Judge ]
— type of laaj —
전통적인 평가지표는 출려과 정답 간 유사성을 기반으로 평가 방식이므로, 개방형 질문에 적절하지 않음
LLM-as-a-Judge의 세 가지 변형을 제안
1. Pairwise comparison : llm이 질문에 대한 두 가지 답변을 보고 판단
2. Single answer grading : llm이 개별 답변을 보고 점수를 부여
3. Reference-guided grading : 기준 답안을 제공
— pros and cons laaj —
laaj 장점 : 확장성 및 설명 가능성, 인간 개입감수 및 빠른 평가
laaj 단점 :
1. position bias : 특정 위치의 정답을 더 선호
2. vervosity bias : 명확하거나, 고 품질의 대답이 아니라도 긴 답변 또는 장황한 답변을 선호
3. self-enhancement bias : 자신이 생성한 답변을 선호 (데이터가 제한적, 확정 할 수 없다.)
4. Limited capability in grading math and Reasoning : 수학 및 논리적 추론 능력이 제한적임 → 평가를 정확하기 하지 못함. 특히 초등 수준의 문제도 체점을 잘못함(문제를 풀수는 있지만, 주어진 답변이 잘못되면 판단을 잘못내림)
— addressing laaj —
position bias 해결 : 순서를 바꾸고 두번 채점, (무작위 배치), Few-shot 예제 (일관성은 향상 했으나, 정확성이 향상되는 건 아니다. 새로운 편향 가능성 발생, 뿐만 아니라 api calling비용 증가)
Limited capability in grading math and Reasoning 해결 : ( 질문을 독립적으로 해결 후 채점 진행했으나 ) CoT를 사용해도 여전히 동일한 문제 발생, Reference-Guide method (심판이 독립적으로 정답을 생성 후, 이를 평가 프롬프트에 reference answer로 제공 → 실패율이 70% 에서 15%로 크게 감소 챗봇 아레나의 평가 데이터로 fine-tuning 후 실험 진행, open model로도 gpt4정도의 성능 달성
— multi-turn judge —
MT-bench는 각 질문이 두 개의 턴으로 구성 프롬프트 설계를
1. 두 개의 턴을 각각 별도로 분리
2. 전체 대화를 하나의 프롬프트에서 제공
-> 첫 번째 방식은 문맥 이해능력 감소, 두 번째 방법 사용
[ Agreement Evaluation ]
MT-bench에서 상대 pairwise comparison, single answer grading방식 모두 인간 평가자와 높은 일치도를 보였다.

[ Human Preference Bechmark & Standardized Benchmark ]
고품질 데이터셋으로 학습 하면 지속적으로 MMLU 성능 향상, 반면 소규모 고품질 셋은 preference는 향상할 수 잇으나, MMLU는 크게 향상 하지 않는다.
[ Discussion ]
논문에서 모델의 유용성은 강조했지만, (정직성, 무해성)안전성에 대해서는 고려하지 않았다. 유용성 또한 (정확성, 관련성, 창의성)등 다양하게 구성되지만 단일 지표로 통합 평가
[ Conclusion ]
본 논문에서는 챗봇 평가를 위한 LLM-as-a-Judge를 제안, 연구의 결과로 strong LLM은 80% 이상의 높은 일치도를 달성(사람과 유사), 이를 통해서 LLM을 활용한 평가 프레임워크의 기초를 마련 할 수 있을 것 이다.