https://mllm-judge.github.io/

image.png

Step1 : 이미지와 Instruction Pair 생성

Step2 : 멀티모달 MLLM을 사용해서 응답을 생성

Step 3: 제안한 평가 metrics 3가지를 이용해서 사람의 판단과 비교

ABSTRACT

Multimodal Large Language Model(MLLM)을 평가할 수 있는 3가지 밴치마킹을 제시

GPT-4V가 모든 평가에서 다른 MLLM보다 우월한 지표를 보였다.

MLLM Judgement VS Human Annotation

MLLM Judging Consistency

Vision Perception benefits Judging