(논문링크 : https://arxiv.org/pdf/2410.19692 )
Abstract
다양하고 명확한 질문을 생성하는것은 중요하다.
명확한 질문 (기존 수작업과 다르게)자동 생성 평가 LLM기반 프레임워크 AGENT-CQ(automatic generation, evaluation of clarifying questions)를 제안
AEGNT-CQ는 1. 생성단계(llm 프롬프팅 전략), 2. 평가 단계로 구성(multiple llm활용, 평가지표) CrowdLLM(multiple llm)이 ClariQ 데이터셋에서 질문 및 답변을 품질을 평가하는데 효과적임을 확인
Introduction
단발성 검색보다 더 자연스러운 방식으로 정보를 찾는 대화형 검색(Conversational Search, CS) 시스템은 최근 연구가 활발하다.
사람은 고품질의 데이터를 생성할 수 있다. 하지만 특정 도메인에 대해서 반드시 잘 알고 있는건 아니다. 반대로 사전 정의된 template-based meothds 확장성 효율성을 확장시키지만, 유연성이 부족해 일반적인 질문이 생성된다.
최근 LLM이 합성데이터의 생성 능력이 뛰어나다(but. 명확한 질문에 대한 연구는 없다) 명확한 질문 자동 생성 평가 LLM기반 프레임워크 AGENT-CQ(automatic generation, evaluation of clarifying questions)를 제안
AGENT-CQ는 크게 생성(Generation) 프레임워크와 평가(Evaluation) 프레임워크로 구성
2.1 AGENT-CQ: Generation Framework
- Question Generation (Phase 1)
- 사용자 query q→ 명확한 질문 c로 바꿈 (두 가지 프롬프트 방식을 통해서)
- Facet-based: 질의를 여러 ‘측면(facet)’으로 나누어 해석하고, 각각에 대해 명확화 질문 생성.
- Temperature-variation-based: LLM의 temperature 파라미터를 점진적으로 높여가며, 질문의 다양성을 확보하는 방법.
- 사용자 query q→ 명확한 질문 c로 바꿈 (두 가지 프롬프트 방식을 통해서)
- Question Filtering (Phase 2)
- LLM은 명확하지 않거나, 사용자 쿼리와 관련 없는 질문을 도출할 수 있기때문에 (relevance, clarification)을 기반으로 필터링 진행 (score함수를 기반으로 상위 10개만 유지)
- User Response Simulation (Phase 3)
- (링크)에 따르면 (user의 특성을 고려하는)LLM 가상 사용자를 활용하여 대화 평가를 수행하면 실험 비용을 절감 할 수 있다.
평가 함수는(사용자 질문, 사용자 정보, 명확한 질문, 사용자 특성)을 활용 / 특히 응답길이, 상세 수준, revealment probability와 같은 요소를 활용
- (링크)에 따르면 (user의 특성을 고려하는)LLM 가상 사용자를 활용하여 대화 평가를 수행하면 실험 비용을 절감 할 수 있다.
2.2 AGENT-CQ: Evaluation Framework (CrowdLLM)
- Multi-LLM & Multi-Dimensional 평가
- LLM을 평가자로(LLM-as-a-judge) 활용하되, 여러 LLM 인스턴스를 쓰고 temperature를 달리해 다양한 평가 시각을 확보.
- 사람 전문가 평가(소규모)도 병행하여, LLM 평과 결과가 과도하게 치우치지 않도록 인증(validation) 역할 수행.
- 평가지표
- 질문(clarifying questions): 명확화 가능성, 주제 적합성, 구체성, 유용성, 명료성, 질문 난이도, 종합 품질 등.
- 응답(simulated answers): 관련성, 유용성, 자연스러움, 종합 품질 등.
3. 주요 실험 및 결과
3.1 Clarifying Questions 평가
- LLM들이 만든 질문 vs 인간이 만든 질문
- LLM 중에서는 GPT-Temp가 가장 높은 평가 점수(명확화, 유용성 등)를 기록.
- Facet 기반(GPT-Facet) 모델은 구체성(specificity)이 높지만, 질문 길이가 길고 복잡도가 조금 올라감.
- 사람이 만든 질문(Human)은 전반적으로 LLM보다 점수가 낮게 나와 의외의 결과를 보임. (LLM이 자기 자신이 만든 질문에 유리하게 평가하는 경향도 있으나, 일부 인간 평가에서도 유사한 결과가 나왔다는 점이 흥미로움)
3.2 Simulated Answers 평가
- LLM이 사용자 답변을 시뮬레이션한 결과,
- 전반적인 품질(관련성, 유용성, 자연스러움) 면에서 실제 인간 응답과 비슷하거나 오히려 근소하게 우수한 평가를 받음.
- 다만, retrieval과 같은 실제 검색 성능 측면에서는, 질의-응답의 단어 중복(lexical match) 등이 중요하여 사람이 만든 질문+사람 답변 조합이 일부 지표(NDCG@5, @10)에서 유리하게 작동하기도 함.
3.3 Retrieval 성능 비교
- Clarifying Question + Answer를 활용해 BM25, BERT 등 검색 모델에 적용했을 때,
- GPT-Temp가 생성한 질문이 NDCG@1(상위 랭킹 정확도)을 특히 높이는 데 효과적.
- 하지만, 사람 질문 + 사람 답변 조합이 검색 상위 문서(NDCG@5, @10) 측면에서는 더 좋을 때도 있음.
- 즉, 단순 ‘질문-응답 품질’이 높아도, 꼭 모든 검색 지표가 향상되는 것은 아니라는 점을 시사.
4. 추가 분석: 질문 유형 및 패턴
- 길이와 난이도
- 인간 질문: 짧고 간결(9단어 내외, 5~6학년 수준).
- GPT-Facet: 가장 긴 문장(평균 23단어)과 높은 난이도(대학 수준).
- GPT-Temp: 중간 정도 길이에 비교적 읽기 쉽고, 점수도 가장 높음.
- 질문 카테고리
- 선호(Preference) 식별이나 정보 요구(Information Seeking) 질문 유형이 주를 이룸.
- 인간 질문에서는 확인(Confirmation) 유형이 다른 모델 대비 상대적으로 많았음.
5. 시사점 및 결론
- Temperature 변화만으로도 (GPT-Temp) 다양하고 양질의 명확화 질문을 얻을 수 있다는 점이 유효.
- Facet 기반 기법(GPT-Facet)은 구체성에서 장점이 있으나, 실제 사용자 관점에서는 조금 길고 복잡할 수 있음.
- 사람이 만든 질문이 항상 최고 품질이 아니며, LLM이 명확화 질의를 만드는 데 매우 강력한 역량을 보임.
- 하지만 실제 검색/Retrieval 관점에서는 인간이 작성한 짧고 직관적인 질문과 답변이 오히려 더 좋은 지표를 낼 수 있음.
- CrowdLLM(다중 LLM 평가 프레임워크)를 통해 대규모 평가 비용을 절감하면서도, 인간 전문가 평가와도 비교적 높은 합의도를 달성.
6. 한계 및 향후 과제
- 데이터셋 일반화 문제: ClariQ 같은 특정 데이터셋에만 최적화될 수 있으므로, 보다 다양한 실제 질의 시나리오에서도 검증 필요.
- LLM의 블랙박스성: 왜 특정 질문이 만들어졌고, 어느 정도 바이어스가 있는지 완벽히 해석하기 어려움.
- Prompt 의존성: 프롬프트 설계 품질에 따라 결과가 크게 달라질 수 있으므로, 보다 체계적인 프롬프트 최적화 방법 연구 필요.
- 추가 연구 방향
- 도메인 특화된 질의 명확화(의료, 법률 등)
- 멀티턴 대화에서 질문과 답변의 연속성을 어떻게 관리할지
- 편향(bias)에 대한 정량적 측정 및 완화 기법
'AI_Paper > NLP' 카테고리의 다른 글
Survey on Evaluation of LLM-based Agents (0) | 2025.04.08 |
---|---|
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena 논문 리뷰 (1) | 2025.03.12 |
RAGAS: Automated Evaluation of Retrieval Augmented Generation 논문리뷰 (0) | 2025.02.24 |
Agent-as-a-Judge: Evaluate Agents with Agents 논문 리뷰 (0) | 2025.02.21 |
Mixture-of-Agents Enhances Large Language ModelCapabilities(MoA) 논문 리뷰 (0) | 2025.02.20 |