본문 바로가기

AI_Paper/NLP

RAGAS: Automated Evaluation of Retrieval Augmented Generation 논문리뷰

논문 링크 : (https://arxiv.org/pdf/2309.15217)

 

[ Abstract ]

RAG System은 retrieval(검색)과 llm기반의 generation 모듈로 구성되며, 텍스트 데이터베이스의 정보를 활용해 LLM의 hallucination의 위험을 줄인다.

그러나 이러한 RAG 구조에 대한 평가는 어려움이(retrieval(검색) 시스템의 정보 추출 능력, 추출한 문맥을 llm이 활용하는 능력, 출력의 품질) 많다. RAGAS 프레임워크는 인간의 주석에 의존하지 않는 평가 지표를 제시

 

[ Instroduction ]

LLM들이 다양한 평가지표에서 인간과 견주는 지식을 가지고있지만 두가지 한계점이 존재한다.

1. train 이후의 사건에 대해서는 답변 할 수 없다.

2. llm은 training corpus에서 거의 언급되지 않은 지식을 기억하기 어렵다.

이러한 문제의 근본적인 해결책은 RAG(retrieval augmented generation)이다.

최근에는 retrieved documents를 llm의 입력에 추가하는 것만으로 좋은 성능을 낼 수 있음이 확인됐다.

(RAG 시스템 평가에서 주로 참조 코퍼스의 perplexity 측정을 이용해 언어 모델의 성능을 평가하지만 활용능력을 반영하지 못함, 다른 평가방식인 질문 답변 평가 역시 짧은 추출형 답변에만 의존해 실제 사용 환경과 다름)문제를 해결하기 위해 reference answer이 없는 상황에서도 올바름의 지표, 검색된 문서의 유용성 평가할 수 잇는 RAGAS 제안

 

[ related work ]

Automated evaluation of text generation system에 다음 항목들이 있다.

  • GPTscore : 평가하려는 항목을 prompt에 명시하고 (토큰 확률 기반으로) 평가
  • LLM의 답변들을 평가(답변 제시 순서가 영향을 미침)
  • BERTScore : 생성된 답변과 참조 답변간 유사도 비교(임베딩 활용)

[ Evaluation Strategies ]

사람의 평가 기준(reference answer)이 없는 경우가 많기 때문에, 자체적으로 평가할 수 있는 평가 지표에 초점을 맞춤

  1. Faithfulness : 답변이 주어진 문맥에 기반해야한다(환각방지) { my opinion : 주어진 문맥이 올바른 문장이 왔는지 알 수 없다. }
  2. Answer relevance : 답변이 주어진 질문에 응답했는가
  3. Context Relevance : 관련없는 정보 최소화(긴 문맥이 토큰을 많이 소요, 문맥을 효과적으로 활용할 수 없음)

평가 방법

Faithfulness

LLM을 활용해서 답변에서 문장들을 추출(짧고 집중된 주장으로 분해)

답변에서 문장 추출 Prompt

생성된 문장들에 대해서 LLM이 검증을 진행(retrieval 문맥에서 추론 될 수 있는지)

생성된 문장에 대한 검증 진행 Prompt

faithfullness score = 검증 성공 문장 수 / 총 문장의 수

 

Answer Relevance 

이 항목에서는 사실성은 고려하지 않으며 대신 답변이 불완전하거나 불필요한 정보를 포함하면 감점 진행

llm에게 답변을 기반으로 가능한 n개의 질문 생성하도록 prompt 진행.

답변을 기반으로하는 질문 생성 Prompt

생성된 질문과 기존 질문을 임베딩 모델을 통해서 비교

AR score : 유사도 점수 평균

 

Context Relevance

불필요한 정보에 대한 감점, retrieved context에서 LLM이 문맥에서 질문을 답변하는데 도움이 되는 관련 문장들을 추출

retrieval context에서 질문과 관련있는 문장 추출 Prompt

CR 점수 : 추출된 관련 문장 / retrieved context 총 문장 수

 

[ WikiEval Dataset ]

3가지 요소 측면에 대해 얼마나 일치하는지 평가하는 데이터셋이 없어 직접 생성

 

[ Experiments ]

human eavluation과 일치도

 

[ Conclusion ]

  • RAG 시스템의 자동화된 평가 방법의 필요성 강조
  • RAGAS는 RAG 시스템에 정답 데이터가 없는 상황에서도 insights를 제공
  • WikiEval 데이터를 통해서 사람평가와 매우 일치함을 호가인