https://arxiv.org/pdf/2404.12272

ABSTRACT

LLM output을 평가하는 LLM evaluator는 LLM의 문제점을 그대로 가지고있음. Hallutcination, ignore instructions… 따라서 사용자가 validator를 validate 해야한다.
EvalGen : auto-evaluation alignment problem을 프롬프트로 다루고 evaluator을 개선하자.

EvalGen

LLM이 유저의 prompt를 바탕으로, 자연어 criteria를 제시.
LLM이 각 criteria마다 여러 assertions들을 생성. 참/거짓 평가.
- assertion : criteria를 구현하는 프롬프트/코드를 의미
사용자는 해당 명제들에 대해 참/거짓을 선택한다.
최종단계 : 사용자의 선택과 LLM의 평가를 비교하는 최종 보고서가 생성됨.
피드백 : 인간의 피드백을 반영하여 평가 기준을 업데이트할 수 있다. 사용자 개인의 선호도에 맞추어 평가 시스템을 점진적으로 개선할 수 있다.
문제점 : criteria drift 현상 >> 인간이 criteria를 기준으로 평가할 때, 평가가 일관적이지 못하는 문제.

Pipeline

LLM으로 생성한 outputs와 Prompt를 바탕으로 Criteria를 생성
해당 Criteria를 바탕으로 여러가지 assertions들을 생성
LLM이 평가한 assertions들과 사람이 grading한 criteria들을 비교.
user’s grade와 가장 alignment가 높은 후보 assertions들을 선택하여 고름.