[ Abstract ]
RAG는 안본 데이터에 대해서 답변 수행, 그러나 전체 맥락 파악 질문에 대한 답변 불가 기존의 전체 맥락 답변의 장점과 RAG 방식의 장점을 결합한 GraphRAG 제안 Graph RAG의 graph index 구성 2-step
- 전체 문서에서 Entity Knowledge Graph 생성(using LLM)
- 연관 Entites에서 community요약 생성 → 각 요약 종합하여 최종 응답 생성
global sensemaking question에서 좋은 성능 달성
[ Introduction ]
LLM context size 제한 있어 RAG 방법론 사용 → but 전체 맥락 답변 불가 GrahpRAG
- knowledge graph 생성 (node: entity, edges: entites relationships)
- graph를 관련 entity기반 계층 community로 분할 후 community summary 생성 생성된 summary는 bottom-up 방식으로 구성되며, 상위 계층의 summary는 하위 계층의 summary를 재귀적으로 포함 → 이렇게 생성된 커뮤니티 요약은 전역 설명 제공
query에 대한 답변은 map-reduce 방식으로 진행 map: 요약을 사용하여 질의에 대하여 부분적으로 응답 reduce: 부분 응답을 모아 최종응답 생성
GraphRAG의 의의
- 전역 질답 하는 방법론 및 능력
- 이를 입증하기 위한 llm-as-a-judge 방법론\
[ Background ]
- RAG Approach System GraphRAG는 기존 표준적인 vector RAG 방식과 다르게 요약을 self-memory로 사용 요약을 만들 때 계측 indexing을 활용하는 것이 기존 방식과 유사하나, graph index를 생성하고 graph-based community detection을 활용해서 데이터 주제별 분할을 수행하는 것이 차별점
- Using Knowledge Graphs 지식 그래프 추출 방식은 Rule-base부터 임베딩까지 다양하게 발전해 왔으며, GraphRAG는 LLM을 활용한 최신 추출 방식을 따름. 기존 방식이 질의 시점에 노드를 찾아가는 탐색에 집중했다면, GraphRAG는 그래프의 고유한 모듈성(Modularity)을 활용해 인접 노드들을 계층적인 커뮤니티 단위로 분류합니다. 이후 LLM이 이 계층 구조를 따라 재귀적 요약을 수행함으로써, 전체 데이터셋에 대한 종합적인 이해(Global Understanding) 제공
- Adaptive benchmarking for RAG Evaluation 기존 RAG Evaluation은 부분 fact를 평가, 본 논문에서 전역 이해를 하는 질문을 동적으로 생성 제안
- RAG evaluation criteria 이전 연구는 LLM의 생성된 text를 정량화할 수 있는 기준으로 평가 진행(ex. RAGAS) 평가의 gold standard가 없는 경우 2개 llm의 상대평가 진행 (llm-as-a-judge) 본 연구에서 전역 질문 RAG시스템에 대한 기준 설계, 평가
[ Method ]
3-1. source docs → text chunks
청크 크기가 길수록 llm call이 적지만 정보의 recall 성능이 저하될 수 있다.
3-2. text chunks → entities & relationships
llm이 주어진 chunk에 대해서 entities & relationships 추출 + 짧은 description 추가 생성 추출 프롬프트는 도메인 특화 few-shot 예시를 선택하여 도메인에 맞게 조정 llm은 추출한 entitiy에 대해서 주장(claims)를 추출하도록 프롬프트 가능
3-3. entites & relationships → Knowledge Graph
추출과정은 llm을 통한 추상요약이다. (명시적으로 언급되지 않은 내용 생성 가능) 동일한 entity가 문서 여러곳에서 나올 수 있다. knowledge graph 생성 과정에서 entity, relationship은 node, edge가 된다. entity에 대한 설명은 node, edge로 집약, 특정 관계의 중복횟수는 가중치로 반영 { claims도 유사 } GraphRAG는 중복 entity에 대해서 강건하다.
3-4. Knowledge Graph → Graph Community
생성된 graph index를 바탕으로 community를 구성하기위해 린든 알고리즘 활용 계층적 방식으로 활용하며, 각 탐지된 커뮤니티 내부에서 하위 커뮤니티를 재귀적으로 탐지 → 분할할 수 없을때 까지 계층 구조의 각 레벨은 그래프의 노드를 상호배타적(해당 레벨에서만 나옴) + 집합적 (그래프에 들어가있음) 커뮤니티로 분할
3-5. Graph Community → Community Summary
데이터셋의 전반 구조 및 의미 이해에 유용(특정 query없이도 코퍼스 이해에 활용) { 하나의 주제 요약에 대해 확인하고 관련 정보를 찾아갈 수 있으나 본 논문에서는 전반 구조만 } summaries를 만들 때 (nodes, edges, related claims)을 기반 생성, 상위 요약은 하위 요약 기반으로 생성
- leaf-level community: 우선순위 정해서 context까지 입력
- higher-level community: 하위 요약 사용
3-6. Community Summary → Community Answer → Global Answer community summary
무작위로 섞고 map community answers: 중간 답변 생성 0~100점 수치화 reduce to global answer: 점수 정렬 후 context size 제한까지 추가 → 전역 답변 생성
3.2. Global Sensemaking Question generation
low-level fact수준의 질문이 아니라 코퍼스에 대한 고수준 설명이 주어지면 가상 사용자 persona 생성하도록 프롬프트 / 각 가상 사용자에 대해 rag시스템을 사용하여 수행할 과제를 명시하도록 다시 프롬프트 persona + task 조합의 질문 생성 (질문을 문서에서 직접 뽑지 않음) [ K x N x M(질문 개수) ]
3.3. Criteria for Evauating Global Sensemaking
gold answers없다면 llm상대평가 (Comprehensiveness, Diversity, Empowerment)
- Directness
[ Analysis ] 100만 토큰 규모의 (팟캐스트, 뉴스) 데이터셋 - chunk size 600, overlap 100 C0(root), C1, C2, C3(각 커뮤니티 레벨), TS(map-reduce 방식, 원본 텍스트 섞어서), SS(vectorRAG) 비교
[ Experiment ]
- Experiment 1 (LLM 평가 기반) 글로벌 접근법(C0-C3)과 TS > 벡터 RAG(SS) 포괄성: Podcast 72-83%, News 72-80% 다양성: Podcast 75-82%, News 62-71% Directness: SS 가장 높음(간결하지만 정보 범위 제한)
- Experiment 2 (청구 기반 검증) 글로벌 조건(C0-C3)과 TS > SS (포괄성, 다양성) Podcast: 모든 글로벌 조건 다양성 우수 News: C0만 다양성에서 유의미하게 우수 LLM 평가와 청구 기반 지표: 포괄성 78%, 다양성 69-70% 일치
핵심: GraphRAG/글로벌 요약은 포괄성과 다양성에서 SS보다 우수하며, 루트 레벨 요약만 사용해도 효율적.
[ Conclusion ] GraphRAG는 knowledge graph generation과 QFS를 결합하여 문맥 이해질문에 대해 답하는 RAG 방법론 기존 RAG 방법론에 비해 포괄성, 다양성 모두 개선을 보였으며, map-reduce 기반 원문 요약 접근법과 비교해도 유리한 결과를 보임. 동일 데이터셋에 대한 다수의 글로벌 질의
'AI_Paper > NLP' 카테고리의 다른 글
| REALM: Retrieval-Augmented Language Model Pre-Training 논문리뷰 (0) | 2025.09.02 |
|---|---|
| Retrieval-Augmented Generation with Graphs(GraphRAG) 논문 리뷰 (0) | 2025.09.02 |
| RAFT: Adapting Language Model to Domain Specific RAG 논문리뷰 (5) | 2025.08.13 |
| On LLMs-Driven Synthetic Data Generation, Curation,and Evaluation: A Survey 논문리뷰 (0) | 2025.04.25 |
| Survey on Evaluation of LLM-based Agents (0) | 2025.04.08 |