0814 Prompt Engineering (2)

G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment (1)

G-EVAL

현재 네뷸라에서 사용하고 있는 평가는

image.png

image.png

문제점.

  1. 1~5 scale에서 3점이 많이 나올 수 있다.

  2. 정수로만 점수가 나오는 경향이 있다.

이 문제를 해결하기 위해 출력되는 토큰의 확률을 계산하여 점수를 정규화, contiguous하게 할 수 있다.

Retrieval 요소를 더할 수 없을까 ?