https://arxiv.org/pdf/2404.12272

ABSTRACT

EvalGen

Pipeline

image.png

  1. LLM으로 생성한 outputs와 Prompt를 바탕으로 Criteria를 생성
  2. 해당 Criteria를 바탕으로 여러가지 assertions들을 생성
  3. LLM이 평가한 assertions들과 사람이 grading한 criteria들을 비교.
  4. user’s grade와 가장 alignment가 높은 후보 assertions들을 선택하여 고름.