https://arxiv.org/pdf/2407.03479
LLM이 생성하는 텍스트를 평가하는 문제를 기존의 방법으로는 한계가 있었고, 인간의 개입이 어쩔 수 없이 필요하기때문에 인간의 평가를 판단기준에 적용시키는 방법을 제시.
Abstract
- 전통적인 평가 지표, BLEU와 ROUGHE는 는 LLM이 생성한 텍스트를 평가하는 데 한계가 있으며, 인간 평가 역시 비용 문제로 인해 대규모로 사용하기 어렵다는 문제가 있다.
- 이에 대한 해결책으로 LLM을 평가자로 사용하는 방법이 제시되지만, 이 또한 신뢰성 문제로 인해 인간의 개입이 필요하다.
- EvaluLLM 디자인을 제시 : 이러한 문제를 해결하기 위해 LLM을 사용자가 조정 가능한 평가자로 활용하고, 이를 통해 인간의 의도를 반영한 평가 기준을 설정하고자 함.
Contribution
- EvaluLLM(Desmond et al., 2024)사용자가 여러 모델을 선택하고, 자연어생성(NLG)의 평가를 위한 지표를 정의할 수 있게 한다.그리고 AI 평가와 사람의 평가간 피드백을 바탕으로 일치성을 관찰.
- 전문가들과의 인터뷰(N=8)를 통해 LLM-as-a-judge를 포함한 모델 평가 workflows 에서 challenge tasks와 user requirements에 정성적인 결과를 제시.
- 디자인 추천과 예시 기능 설계를 제안하여 사용자가 평가 기준을 interactive하게 정의할 수 있도록 지원하고, LLM-as-a-judge의 선호도에 대한 투명하고 빠른 접근을 보장.
EvaluLLM
- 프롬프트 및 모델 선택: 평가를 위한 프롬프트를 작성, 여러 모델을 선택.
- LLM-as-a-Judge 정의: 자연어를 사용하여 custom Criteria를 작성.
- 결과 검토 및 피드백 : 사용자는 생성된 결과를 바탕으로 인간과 AI의 평가의 일치도를 검토하고 피드백을 제공.

Build
- A : Generator 는 evaluation data를 생성하는 역할을 한다. 사용자가 데이터셋을 선택하고 프롬프트를 입력.