SYNTHETIC DATA GENERATION USING LARGE LANGUAGE MODELS: ADVANCES IN TEXT AND CODE 논문리뷰

논문 링크: (https://arxiv.org/pdf/2503.14023)

{ Text Generation 파트만 분석 }

[Abstract]

본 논문은 llm을 활용한 합성 데이터, 코드 데이터 최신 핵심 기법 정리하여 어떻게 활용하는지 분석.
장단을 함께 논의하며 이를 완화하기 위한 방법과 향후 연구 제시

[ Introduction ]

LLM은 자연어, 코드 생성에서 큰 성과를 냈지만, 고품질 학습 데이터 부족, 높은 라벨링 비용, 프라이버시 제약 문제가 남아있다.
본 논문은 합성 데이터 생성에 대한 포괄적인 요약 및 의견 제신

techniques: prompt-based generation, retrieval-augmented generation, self-instruct methods, reinforement learning with feedback과 같은 접근법 정리
text data 생성 고도화: model performance, data diversity, efficiency등
code data 생성 고도화.
추후 연구.

[ Synthetic Data Generation for Text Tasks ]

topic control/ramdomized prompt: 다양성, 일반화 개선
few-shot/instruction based prompt: 형식기반 중요할때 높은 정학성 데이터 생성
itterative, feedback-driven generation: 난이도 있을 때 고품질 생성

5.2 Quality and properties of generated data

LLM이 생성한 데이터가 오류, 노이즈, 분포 불일치 문제 없이 품질과 유용성을 보장하는게 매우 중요

1. RAG: 사실에 근거해 신뢰성 높이기(특히 QA

2. Filtering: 저품질 데이터 필터링

중복제거, 프롬프트 복제 탐지, 출력 형식 적합성 체크
품질 평가 모델 학습 후 사용
confidence 높은 답변만 사용
human feedback 활용

3. 분포 정렬: 분포 비슷하게 맞추기(주제, 지나지체 과도하거나)

4. reasoning 과정 함께 생성: CoT 정확성 보장 어려움

[ Quality Assurance 정리 ]

RAG / Critic 활용
Distribution shift: real data와 섞기, 다중 llm, prompt사용, adversarial 기반 학습
합성 데이터 평가 fine-tuning 후 모델 검증 및 비교 실제 데이터 분포와 유사성 체크 휴면 평가자 robustness, generalize 능력 평가
overfitting: 실제 데이터 없는 경우 특히 발생 (오류, 편향 증폭)
scale, cost 관계
윤리 문제
Task-specific Nuances: 대화 태스크는 너무 협조적, 요약은 다양성 부족하거나 차별화 어려움
Human Acceptance: 실무자 들이 합성 데이터 기반 신뢰 부족

Key future directions in LLM-based synthetic data research

[ Conclusion ]

LLM 기반 합성 데이터 생성은 데이터 부족 문제를 해결하고 모델 학습 성능을 향상시키는 강력한 방법
실제 데이터와 결합하고 적절히 검증하면 분포 이동, 편향, 모델 붕괴 등의 위험을 관리할 수 있으며, 향후 인간-중심 생성과 도메인 특화 모델 등 혁신적 활용이 기대된다.

저작자표시 비영리 변경금지 (새창열림)

'AI_Paper > NLP' 카테고리의 다른 글

Automatic Instruction Evolving for Large Language Models 논문 리뷰 (0)	2026.02.12
From Local to Global: A GraphRAG Approach to Query-Focused Summarization 논문리뷰 (0)	2026.01.04
REALM: Retrieval-Augmented Language Model Pre-Training 논문리뷰 (0)	2025.09.02
Retrieval-Augmented Generation with Graphs(GraphRAG) 논문 리뷰 (0)	2025.09.02
RAFT: Adapting Language Model to Domain Specific RAG 논문리뷰 (5)	2025.08.13

나만보는AI학습지

SYNTHETIC DATA GENERATION USING LARGE LANGUAGE MODELS: ADVANCES IN TEXT AND CODE 논문리뷰

{ Text Generation 파트만 분석 }

'AI_Paper > NLP' 카테고리의 다른 글

티스토리툴바

SYNTHETIC DATA GENERATION USING LARGE LANGUAGE MODELS: ADVANCES IN TEXT AND CODE 논문리뷰

{ Text Generation 파트만 분석 }

'AI_Paper > NLP' 카테고리의 다른 글

'AI_Paper/NLP' Related Articles

티스토리툴바