https://arxiv.org/pdf/2407.03479

LLM이 생성하는 텍스트를 평가하는 문제를 기존의 방법으로는 한계가 있었고, 인간의 개입이 어쩔 수 없이 필요하기때문에 인간의 평가를 판단기준에 적용시키는 방법을 제시.

Abstract

전통적인 평가 지표, BLEU와 ROUGHE는 는 LLM이 생성한 텍스트를 평가하는 데 한계가 있으며, 인간 평가 역시 비용 문제로 인해 대규모로 사용하기 어렵다는 문제가 있다.
이에 대한 해결책으로 LLM을 평가자로 사용하는 방법이 제시되지만, 이 또한 신뢰성 문제로 인해 인간의 개입이 필요하다.
EvaluLLM 디자인을 제시 : 이러한 문제를 해결하기 위해 LLM을 사용자가 조정 가능한 평가자로 활용하고, 이를 통해 인간의 의도를 반영한 평가 기준을 설정하고자 함.

Contribution

EvaluLLM(Desmond et al., 2024)사용자가 여러 모델을 선택하고, 자연어생성(NLG)의 평가를 위한 지표를 정의할 수 있게 한다.그리고 AI 평가와 사람의 평가간 피드백을 바탕으로 일치성을 관찰.
전문가들과의 인터뷰(N=8)를 통해 LLM-as-a-judge를 포함한 모델 평가 workflows 에서 challenge tasks와 user requirements에 정성적인 결과를 제시.
디자인 추천과 예시 기능 설계를 제안하여 사용자가 평가 기준을 interactive하게 정의할 수 있도록 지원하고, LLM-as-a-judge의 선호도에 대한 투명하고 빠른 접근을 보장.

EvaluLLM

프롬프트 및 모델 선택: 평가를 위한 프롬프트를 작성, 여러 모델을 선택.
LLM-as-a-Judge 정의: 자연어를 사용하여 custom Criteria를 작성.
결과 검토 및 피드백 : 사용자는 생성된 결과를 바탕으로 인간과 AI의 평가의 일치도를 검토하고 피드백을 제공.

Build

A : Generator 는 evaluation data를 생성하는 역할을 한다. 사용자가 데이터셋을 선택하고 프롬프트를 입력.