본문 바로가기

AI_Paper/NLP

Automatic Instruction Evolving for Large Language Models 논문 리뷰

[Abstract]

Evol-insturction은 모델의 성능 향상, 하지만 인간 전문가 지식이 필요함 본 논문은 인간 개입없이 instruction data을 진화시키는 방법 제안
지시문에 적합한 방법을 통해 개선 진행

 

[Introduction]

Auto Evolve instruct: 전문가 작업없이 instruction 자동 분석 후 다양한 테스크에 맞게 고도화
{고정된 Evolving method 항상 만족 X}

  1. evolve llm결과 optimizer llm feedback 생성
  2. feedback 기반 개선 1-2 repeat → evolving method 개선

 

[Auto Evol-Instruct]

사람 없이 LLM이 instruction 진화 방법을 자동으로 설계

 

  1. initail evolving method 선택 (Evol llm)
  2. evol trajectory analysis (optimizer llm identify issues → feedback)
  3. evolving method optimization(mulitiple optimizations: m개 feedback, m개 e candidate 확보)
1. batch(b)개 sample 추출 
2. 각 데이터 별로 x_l 까지 e_t-1로 evolve
3. x_1 ~ x_b를 기반으로 feedback 찾기
3-1. feedback m개 찾기
4. feedback기반으로 e_t 후보 m개 확보 
5. 검증셋을 기반으로 테스트 진행 후 제일 확률 높은 e_t선정

 

[conclusion]

사람 개입없이 instruction 데이터를 발전시키는 자동화 시스템 Auto Evol-Instruct 개발

위 방법은 Instruction 발전 과정 중 식별된 문제 해결 방식으로 evolving method 반복적으로 개선