https://arxiv.org/pdf/2303.16634
- G-EVAL이 text를 평가하는데 있어서 다른 기존의 평가방법보다 우월했다.
- 특히 모델의 사이즈가 클수록, 같은 GPT중에서도 GPT4가 summarize 와 dialogue generation에 성능이 좋았다.
- CoT가 모델의 평가 과정에서 더 많은 context와 instruction을 제공하여 평가의 정확성을 높힐 수 있었다.
- 하지만 LLM의 Summary를 편향하는 문제가 있다.
Abstract
- NLG(Natural Language Gernatation)자연어 생성 시스템이 생성하는 텍스트를 평가하는 방법으로 G-EVAL 프레임워크를 제시.
- CoT(Chain of Thoguhts) 와 Form-Filling Paradigm을 활용하여 NLG 결과물을 평가한다.
Introduction
- 기존에 사용하던 텍스트 평가 기법 BLEU, ROUGE로는 인간의 평가와 유사성이 없으며, 새로운 tasks에 대해서는 비용이 크다는 한계가 있다.
- 따라서 최근연구에서는 LLM을 직접 활용하여, 어떠한 참조없이 LLM이 고품질의 텍스트를 학습했다고 가정을 하고 사용한다.
- 하지만 여전히 LLM을 사용한 평가도, 타당성과 신뢰도가 부족하며 인간의 평가와 유사성이 부족하다는것이 결론.
- Chain of Thoguht (CoT)를 활용한 LLM framework, G-EVAL.
- Task Introduction과 Evaluation Criteria를 Prompt로 제공하여, Detailed Evaluation Steps(CoT)를 생성하게 유도.
- 생성된 CoT와 Prompt로 NLG 출력물을 평가

Main Contribution
- LLM 기반 평가 지표의 우수성: LLM 기반의 평가 지표는, 인간의 평가를 참조/비참조하는 기존의 평가방식보다 우수하며, 특히나 개방적이고 창의적인 NLG tasks에서 우수한 성능을 보임.