[Abstract]
Evol-insturction은 모델의 성능 향상, 하지만 인간 전문가 지식이 필요함 본 논문은 인간 개입없이 instruction data을 진화시키는 방법 제안
지시문에 적합한 방법을 통해 개선 진행
[Introduction]
Auto Evolve instruct: 전문가 작업없이 instruction 자동 분석 후 다양한 테스크에 맞게 고도화
{고정된 Evolving method 항상 만족 X}
- evolve llm결과 optimizer llm feedback 생성
- feedback 기반 개선 1-2 repeat → evolving method 개선
[Auto Evol-Instruct]
사람 없이 LLM이 instruction 진화 방법을 자동으로 설계

- initail evolving method 선택 (Evol llm)
- evol trajectory analysis (optimizer llm identify issues → feedback)
- evolving method optimization(mulitiple optimizations: m개 feedback, m개 e candidate 확보)
1. batch(b)개 sample 추출
2. 각 데이터 별로 x_l 까지 e_t-1로 evolve
3. x_1 ~ x_b를 기반으로 feedback 찾기
3-1. feedback m개 찾기
4. feedback기반으로 e_t 후보 m개 확보
5. 검증셋을 기반으로 테스트 진행 후 제일 확률 높은 e_t선정
[conclusion]
사람 개입없이 instruction 데이터를 발전시키는 자동화 시스템 Auto Evol-Instruct 개발
위 방법은 Instruction 발전 과정 중 식별된 문제 해결 방식으로 evolving method 반복적으로 개선