https://arxiv.org/pdf/2404.12272
ABSTRACT
- LLM output을 평가하는 LLM evaluator는 LLM의 문제점을 그대로 가지고있음. Hallutcination, ignore instructions… 따라서 사용자가 validator를 validate 해야한다.
- EvalGen : auto-evaluation alignment problem을 프롬프트로 다루고 evaluator을 개선하자.
EvalGen
- LLM이 유저의 prompt를 바탕으로, 자연어 criteria를 제시.
- LLM이 각 criteria마다 여러 assertions들을 생성. 참/거짓 평가.
- assertion : criteria를 구현하는 프롬프트/코드를 의미
- 사용자는 해당 명제들에 대해 참/거짓을 선택한다.
- 최종단계 : 사용자의 선택과 LLM의 평가를 비교하는 최종 보고서가 생성됨.
- 피드백 : 인간의 피드백을 반영하여 평가 기준을 업데이트할 수 있다. 사용자 개인의 선호도에 맞추어 평가 시스템을 점진적으로 개선할 수 있다.
- 문제점 : criteria drift 현상 >> 인간이 criteria를 기준으로 평가할 때, 평가가 일관적이지 못하는 문제.
Pipeline

- LLM으로 생성한 outputs와 Prompt를 바탕으로 Criteria를 생성
- 해당 Criteria를 바탕으로 여러가지 assertions들을 생성
- LLM이 평가한 assertions들과 사람이 grading한 criteria들을 비교.
- user’s grade와 가장 alignment가 높은 후보 assertions들을 선택하여 고름.