https://arxiv.org/pdf/2310.05657
- 설명/분석 :
- ChatGPT에게 점수를 요청할때, 항상 그 점수에 대한 설명 또는 분석을 요청해야 한다.
- Auto CoT :
- Auto Chain-of-Thought 반드시 사용할 필요는 없다. Auto CoT를 사용하는 것이 항상 인간 평가와의 상관관계를 높여주는 것은 아니기 때문이다.
- 특히, ChatGPT에게 점수에 대해 설명하도록 요청할 때 Auto CoT를 사용하는 것이 상관관계를 항상 개선하지는 않는다.
Abstract
- Auto-CoT가 항상 더 좋은 결과를 내지는 않는다.
- G-Eval이 숫자로만 평가를 내리게 하면 좋은 상관관계가 나오지 않을 수 있다.
- LLM에게 스스로 평가를 설명하게하면 상관관계가 크게 개선될 수 있다.
Experimental Step
LLM 과 G-EVAL의 차이
차이점 1: Auto-Chain-of-Thought (Auto-CoT)
- LLM 평가와 G-Eval 모두 Task Description 과 Criteria 는 인간이 작성.
- G-Eval은 거기에 더해서 LLM이 Evaluation Step, 즉 CoT 를 생성하게 한다. "Evaluation steps:"이라는 문장을 추가하여 LLM에게 Step을 생성하도록 유도.
차이점 2: 출력에 대한 프롬프트
- G-Eval은 score only로 LLM이 오직 숫자로 점수를 출력하도록 제한하지만, LLM evaluator는 출력 형식을 제한하지 않는다.
Auto-CoT가 항상 더 좋은 결과를 내는가 ?
프롬프팅이 결과에 주는 영향
Temperature
Prompt