https://mllm-judge.github.io/

Step1 : 이미지와 Instruction Pair 생성
Step2 : 멀티모달 MLLM을 사용해서 응답을 생성
Step 3: 제안한 평가 metrics 3가지를 이용해서 사람의 판단과 비교
ABSTRACT
Multimodal Large Language Model(MLLM)을 평가할 수 있는 3가지 밴치마킹을 제시
- Scoring Evaluation (점수 평가): 특정 작업에 대해 점수를 매기는 능력.
- Pair Comparison (쌍 비교): 두 가지 항목을 비교하여 더 나은 것을 선택하는 능력.
- Batch Ranking (일괄 순위 매기기): 여러 항목을 순위에 따라 정렬하는 능력.
GPT-4V가 모든 평가에서 다른 MLLM보다 우월한 지표를 보였다.
MLLM Judgement VS Human Annotation
MLLM Judging Consistency
Vision Perception benefits Judging