논문 링크: (https://arxiv.org/pdf/2503.14023)
{ Text Generation 파트만 분석 }
[Abstract]
본 논문은 llm을 활용한 합성 데이터, 코드 데이터 최신 핵심 기법 정리하여 어떻게 활용하는지 분석.
장단을 함께 논의하며 이를 완화하기 위한 방법과 향후 연구 제시
[ Introduction ]
LLM은 자연어, 코드 생성에서 큰 성과를 냈지만, 고품질 학습 데이터 부족, 높은 라벨링 비용, 프라이버시 제약 문제가 남아있다.
본 논문은 합성 데이터 생성에 대한 포괄적인 요약 및 의견 제신
- techniques: prompt-based generation, retrieval-augmented generation, self-instruct methods, reinforement learning with feedback과 같은 접근법 정리
- text data 생성 고도화: model performance, data diversity, efficiency등
- code data 생성 고도화.
- 추후 연구.
[ Synthetic Data Generation for Text Tasks ]
- topic control/ramdomized prompt: 다양성, 일반화 개선
- few-shot/instruction based prompt: 형식기반 중요할때 높은 정학성 데이터 생성
- itterative, feedback-driven generation: 난이도 있을 때 고품질 생성
5.2 Quality and properties of generated data
LLM이 생성한 데이터가 오류, 노이즈, 분포 불일치 문제 없이 품질과 유용성을 보장하는게 매우 중요
1. RAG: 사실에 근거해 신뢰성 높이기(특히 QA
2. Filtering: 저품질 데이터 필터링
- 중복제거, 프롬프트 복제 탐지, 출력 형식 적합성 체크
- 품질 평가 모델 학습 후 사용
- confidence 높은 답변만 사용
- human feedback 활용
3. 분포 정렬: 분포 비슷하게 맞추기(주제, 지나지체 과도하거나)
4. reasoning 과정 함께 생성: CoT 정확성 보장 어려움
[ Quality Assurance 정리 ]
- RAG / Critic 활용
- Distribution shift: real data와 섞기, 다중 llm, prompt사용, adversarial 기반 학습
- 합성 데이터 평가 fine-tuning 후 모델 검증 및 비교 실제 데이터 분포와 유사성 체크 휴면 평가자 robustness, generalize 능력 평가
- overfitting: 실제 데이터 없는 경우 특히 발생 (오류, 편향 증폭)
- scale, cost 관계
- 윤리 문제
- Task-specific Nuances: 대화 태스크는 너무 협조적, 요약은 다양성 부족하거나 차별화 어려움
- Human Acceptance: 실무자 들이 합성 데이터 기반 신뢰 부족

[ Conclusion ]
LLM 기반 합성 데이터 생성은 데이터 부족 문제를 해결하고 모델 학습 성능을 향상시키는 강력한 방법
실제 데이터와 결합하고 적절히 검증하면 분포 이동, 편향, 모델 붕괴 등의 위험을 관리할 수 있으며, 향후 인간-중심 생성과 도메인 특화 모델 등 혁신적 활용이 기대된다.
'AI_Paper > NLP' 카테고리의 다른 글
| Automatic Instruction Evolving for Large Language Models 논문 리뷰 (0) | 2026.02.12 |
|---|---|
| From Local to Global: A GraphRAG Approach to Query-Focused Summarization 논문리뷰 (0) | 2026.01.04 |
| REALM: Retrieval-Augmented Language Model Pre-Training 논문리뷰 (0) | 2025.09.02 |
| Retrieval-Augmented Generation with Graphs(GraphRAG) 논문 리뷰 (0) | 2025.09.02 |
| RAFT: Adapting Language Model to Domain Specific RAG 논문리뷰 (5) | 2025.08.13 |