https://arxiv.org/pdf/2407.03479

LLM이 생성하는 텍스트를 평가하는 문제를 기존의 방법으로는 한계가 있었고, 인간의 개입이 어쩔 수 없이 필요하기때문에 인간의 평가를 판단기준에 적용시키는 방법을 제시.

Abstract

Contribution

EvaluLLM

  1. 프롬프트 및 모델 선택: 평가를 위한 프롬프트를 작성, 여러 모델을 선택.
  2. LLM-as-a-Judge 정의: 자연어를 사용하여 custom Criteria를 작성.
  3. 결과 검토 및 피드백 : 사용자는 생성된 결과를 바탕으로 인간과 AI의 평가의 일치도를 검토하고 피드백을 제공.

image.png

Build