https://arxiv.org/pdf/2309.13633

ABSTRACT
- LLM은 작은 프롬프트의 변화로도 결과가 크게 다르게 나올 수 있다.
- 좋은 퀄리티의 결과를 도출하기 위해, 프롬프트를 계속해서 바꿔서 수행해야하는 개발자들은 매번 결과를 평가해야합.
- EvalLM을 도입. LLM의 출력물을 자동으로 평가할 수 있는 도구를 개발.
- EvalLM을 사용해서 효율적으로 프롬프트를 수정할 수 있다.
Evallm의 Design Goals
- DG1: 사용자 정의 기준에 따른 출력물의 자동 평가
- 사용자 정의 기준에 따라 생성된 출력물을 자동으로 평가하는 기능을 제공하여, 디자이너들이 출력물을 검토하고 평가하는 데 드는 노력을 줄일 수 있다. 그리고 사용자들이 자신만의 기준을 정의할 수 있다.
- DG2: 자동 평가 결과에 대한 설명 제공
- 자동 평가자가 평가를 어떻게 내렸는지 설명하고 정당화하여, 디자이너들이 평가가 자신의 기대와 일치하는지 여부를 검사할 수 있도록 지원한다. 이는 인지 인터뷰(cognitive interviews)처럼, 평가 과정에서 발생할 수 있는 오류나 불명확한 부분을 밝힐 수 있다.
- DG3: 출력 데이터와 이전 연구를 기반으로 기준 정의
- 디자이너들은 출력물을 평가하면서 새로운 기준을 구상하고, 이전 연구를 참조하여 기준을 정의할 수 있다.
- DG4: 사용자 정의 기준의 검토를 통한 수정 제안
- 외부 평가자들이 심리측정 척도를 검토하여 수정하는 과정에서 영감을 받아, 시스템이 디자이너들이 정의한 기준을 검토하고, 이후 평가의 효과성을 높일 수 있는 잠재적인 수정 사항을 제안할 수 있도록 한다.
- DG5: 대규모 평가 중 신뢰할 수 없는 평가 표면화
- 시스템은 신뢰할 수 없는 평가를 판단하여 디자이너들이 검토할 수 있도록 한다.
- DG6: 프롬프트 변경의 영향 추적 및 비교 지원
- 프롬프트 변경의 영향을 이해하는 것은 어렵지만, 이 시스템은 디자이너들이 자동 평가에서 변화가 성능에 미친 영향을 추적하고 비교할 수 있도록 돕는다.
EvalLM은 단순히 출력을 평가하는 도구가 아니라, 디자이너와 LLM이 협력하여 프롬프트와 평가 기준을 반복적으로 개선할 수 있게 도와주는 도구이다.
Evallm UI