https://mllm-judge.github.io/

Step1 : 이미지와 Instruction Pair 생성

Step2 : 멀티모달 MLLM을 사용해서 응답을 생성

Step 3: 제안한 평가 metrics 3가지를 이용해서 사람의 판단과 비교

ABSTRACT

Multimodal Large Language Model(MLLM)을 평가할 수 있는 3가지 밴치마킹을 제시

Scoring Evaluation (점수 평가): 특정 작업에 대해 점수를 매기는 능력.
Pair Comparison (쌍 비교): 두 가지 항목을 비교하여 더 나은 것을 선택하는 능력.
Batch Ranking (일괄 순위 매기기): 여러 항목을 순위에 따라 정렬하는 능력.

GPT-4V가 모든 평가에서 다른 MLLM보다 우월한 지표를 보였다.

MLLM Judgement VS Human Annotation

MLLM Judging Consistency

Vision Perception benefits Judging