본문 바로가기

AI_Paper/NLP

SYNTHETIC DATA GENERATION USING LARGE LANGUAGE MODELS: ADVANCES IN TEXT AND CODE 논문리뷰

논문 링크: (https://arxiv.org/pdf/2503.14023)

 

{ Text Generation 파트만 분석 }

 

[Abstract]

본 논문은 llm을 활용한 합성 데이터, 코드 데이터 최신 핵심 기법 정리하여 어떻게 활용하는지 분석.
장단을 함께 논의하며 이를 완화하기 위한 방법과 향후 연구 제시

 

[ Introduction ]

LLM은 자연어, 코드 생성에서 큰 성과를 냈지만, 고품질 학습 데이터 부족, 높은 라벨링 비용, 프라이버시 제약 문제가 남아있다.
본 논문은 합성 데이터 생성에 대한 포괄적인 요약 및 의견 제신

  1. techniques: prompt-based generation, retrieval-augmented generation, self-instruct methods, reinforement learning with feedback과 같은 접근법 정리
  2. text data 생성 고도화: model performance, data diversity, efficiency등
  3. code data 생성 고도화.
  4. 추후 연구.

[ Synthetic Data Generation for Text Tasks ]

  • topic control/ramdomized prompt: 다양성, 일반화 개선
  • few-shot/instruction based prompt: 형식기반 중요할때 높은 정학성 데이터 생성
  • itterative, feedback-driven generation: 난이도 있을 때 고품질 생성

 

5.2 Quality and properties of generated data

LLM이 생성한 데이터가 오류, 노이즈, 분포 불일치 문제 없이 품질과 유용성을 보장하는게 매우 중요

 

1. RAG: 사실에 근거해 신뢰성 높이기(특히 QA

2. Filtering: 저품질 데이터 필터링

  • 중복제거, 프롬프트 복제 탐지, 출력 형식 적합성 체크
  • 품질 평가 모델 학습 후 사용
  • confidence 높은 답변만 사용
  • human feedback 활용

3. 분포 정렬: 분포 비슷하게 맞추기(주제, 지나지체 과도하거나) 

4. reasoning 과정 함께 생성: CoT 정확성 보장 어려움

 

[ Quality Assurance 정리 ]

  1. RAG / Critic 활용
  2. Distribution shift: real data와 섞기, 다중 llm, prompt사용, adversarial 기반 학습
  3. 합성 데이터 평가 fine-tuning 후 모델 검증 및 비교 실제 데이터 분포와 유사성 체크 휴면 평가자 robustness, generalize 능력 평가
  4. overfitting: 실제 데이터 없는 경우 특히 발생 (오류, 편향 증폭)
  5. scale, cost 관계
  6. 윤리 문제
  7. Task-specific Nuances: 대화 태스크는 너무 협조적, 요약은 다양성 부족하거나 차별화 어려움
  8. Human Acceptance: 실무자 들이 합성 데이터 기반 신뢰 부족

Key future directions in LLM-based synthetic data research

 

[ Conclusion ]

LLM 기반 합성 데이터 생성은 데이터 부족 문제를 해결하고 모델 학습 성능을 향상시키는 강력한 방법
실제 데이터와 결합하고 적절히 검증하면 분포 이동, 편향, 모델 붕괴 등의 위험을 관리할 수 있으며, 향후 인간-중심 생성과 도메인 특화 모델 등 혁신적 활용이 기대된다.