KOFFVQA-Leaderboard / leaderboard_data.csv
yoonshik1205's picture
more models
4b5b795
name,eval_date,num_params,clickable,hf_path,SCORE overall,SCORE object attributes,SCORE recognition,SCORE recognition-KO,SCORE relationship,SCORE KO-OCR,SCORE commonsense reasoning,SCORE document understanding,SCORE table understanding,SCORE graph and chart understanding,SCORE hallucination and robustness
gemini-1.5-flash-002,2024-12-05,,False,,73.45454545454545,72.83333333333333,90.0,50.0,68.0,72.5,78.22222222222221,89.33333333333334,83.33333333333334,61.333333333333336,40.0
Aria,2024-12-11,25307311216.0,True,rhymes-ai/Aria,44.14545454545454,66.5,55.0,0.0,50.66666666666666,5.0,79.33333333333334,17.333333333333336,9.0,37.333333333333336,50.0
claude-3-5-sonnet-20241022,2024-12-05,,False,,80.47272727272727,81.83333333333334,90.0,80.0,66.0,76.5,88.88888888888889,78.0,73.66666666666666,88.66666666666667,80.0
Molmo-72B-0924,2024-12-09,73308285952.0,True,allenai/Molmo-72B-0924,36.58181818181818,45.5,25.0,5.0,47.66666666666666,0.0,54.44444444444444,18.33333333333333,20.666666666666668,42.66666666666666,70.0
Molmo-7B-D-0924,2024-12-05,8021025280.0,True,allenai/Molmo-7B-D-0924,30.25454545454545,52.5,20.0,0.0,32.0,5.0,47.77777777777778,12.0,9.333333333333334,27.333333333333336,30.0
Llama-3.2-MAAL-11B-Vision-v0.1,2024-12-05,11142080035.0,True,maum-ai/Llama-3.2-MAAL-11B-Vision-v0.1,61.127272727272725,78.0,65.0,5.0,51.66666666666667,63.0,77.33333333333333,53.0,45.0,50.0,70.0
Ovis1.6-Gemma2-9B,2024-12-05,10206910518.0,True,AIDC-AI/Ovis1.6-Gemma2-9B,38.98181818181818,73.16666666666666,55.0,0.0,33.0,10.0,45.11111111111112,15.0,17.0,31.33333333333333,66.0
gemini-2.0-flash-exp,2024-12-12,,False,,78.87272727272727,73.83333333333334,80.0,70.0,56.66666666666667,90.0,82.66666666666667,93.33333333333334,90.0,84.66666666666667,50.0
InternVL2_5-38B,2024-12-16,38388164992.0,True,OpenGVLab/InternVL2_5-38B,60.25454545454545,64.5,35.0,15.0,57.66666666666666,45.0,69.33333333333334,56.333333333333336,58.66666666666666,71.33333333333334,86.0
gpt-4o-2024-08-06,2024-12-05,,False,,77.6,77.5,80.0,90.0,64.66666666666667,80.0,87.55555555555557,77.0,82.0,68.0,70.0
gemini-1.5-flash-8b-001,2024-12-05,,False,,61.85454545454546,68.66666666666666,50.0,15.0,46.66666666666667,35.0,82.44444444444443,91.33333333333331,51.333333333333336,53.33333333333333,55.0
llava-onevision-qwen2-7b-ov,2024-12-05,8027359776.0,True,lmms-lab/llava-onevision-qwen2-7b-ov,40.98181818181818,60.33333333333333,35.0,15.0,54.333333333333336,5.0,63.33333333333333,21.666666666666664,6.666666666666666,30.666666666666668,80.0
claude-3-opus-20240229,2024-12-13,,False,,58.90909090909091,65.66666666666666,80.0,25.0,67.66666666666667,75.0,82.66666666666667,45.0,31.666666666666664,40.0,46.0
VARCO-VISION-14B,2024-12-05,15195926048.0,True,NCSOFT/VARCO-VISION-14B,65.96363636363637,76.66666666666667,45.0,10.0,58.0,85.0,70.66666666666666,48.33333333333333,74.0,63.33333333333333,80.0
gpt-4o-2024-11-20,2024-12-05,,False,,81.96363636363637,78.33333333333333,90.0,85.0,80.0,91.5,85.55555555555556,86.66666666666666,82.33333333333333,74.66666666666667,70.0
gpt-4o-mini-2024-07-18,2024-12-05,,False,,68.2909090909091,71.33333333333334,80.0,35.0,66.33333333333334,100.0,77.77777777777777,63.0,47.66666666666666,61.333333333333336,70.0
Ovis1.6-Gemma2-27B,2024-12-05,28863552566.0,True,AIDC-AI/Ovis1.6-Gemma2-27B,30.18181818181818,43.33333333333333,50.0,0.0,11.0,5.0,43.55555555555555,29.0,11.333333333333332,46.66666666666667,20.0
MiniCPM-V-2_6,2024-12-05,8099175152.0,True,openbmb/MiniCPM-V-2_6,32.69090909090909,56.0,35.0,0.0,33.666666666666664,5.0,59.77777777777778,20.666666666666668,5.333333333333333,16.666666666666668,20.0
InternVL2_5-78B,2024-12-09,78408318336.0,True,OpenGVLab/InternVL2_5-78B,67.16363636363637,71.33333333333334,75.0,25.0,66.66666666666667,70.0,78.88888888888889,60.66666666666666,51.0,68.0,85.0
gemini-1.5-pro-002,2024-12-05,,False,,77.23636363636363,71.33333333333334,90.0,60.0,69.33333333333334,62.5,83.33333333333334,94.66666666666669,80.0,84.66666666666667,60.0
Idefics3-8B-Llama3,2024-12-11,8462086384.0,True,HuggingFaceM4/Idefics3-8B-Llama3,18.509090909090908,26.666666666666664,0.0,0.0,23.333333333333336,0.0,20.0,21.0,5.333333333333333,33.333333333333336,10.0
MAmmoTH-VL-8B,2024-12-16,8027488800.0,True,MAmmoTH-VL/MAmmoTH-VL-8B,25.96363636363636,36.333333333333336,60.0,0.0,17.333333333333336,5.0,33.11111111111111,24.33333333333333,5.333333333333333,42.0,10.0
internlm-xcomposer2d5-7b,2024-12-05,11095734272.0,True,internlm/internlm-xcomposer2d5-7b,8.327272727272728,14.0,20.0,0.0,3.333333333333333,5.0,10.888888888888888,6.666666666666666,0.0,5.333333333333333,20.0
claude-3-sonnet-20240229,2024-12-13,,False,,31.854545454545452,28.5,20.0,0.0,32.0,27.5,30.22222222222222,38.0,49.333333333333336,42.0,10.0
InternVL2_5-26B,2024-12-16,25514186112.0,True,OpenGVLab/InternVL2_5-26B,44.94545454545454,57.5,25.0,10.0,34.0,55.0,60.66666666666666,32.0,39.66666666666667,40.0,36.0
Phi-3.5-vision-instruct,2024-12-16,4146621440.0,True,microsoft/Phi-3.5-vision-instruct,31.89090909090909,41.16666666666666,0.0,5.0,39.33333333333333,10.0,39.77777777777778,21.666666666666664,19.33333333333333,40.0,65.0
Qwen2-VL-2B-Instruct,2024-12-11,2208985600.0,True,Qwen/Qwen2-VL-2B-Instruct,43.74545454545455,61.0,55.0,20.0,37.333333333333336,35.0,48.22222222222222,54.0,19.33333333333333,33.333333333333336,43.0
Qwen2-VL-7B-Instruct,2024-12-05,8291375616.0,True,Qwen/Qwen2-VL-7B-Instruct,63.16363636363637,73.16666666666666,50.0,40.0,56.0,70.0,74.88888888888889,64.33333333333334,50.0,53.33333333333333,60.0
InternVL2_5-8B,2024-12-09,8075365376.0,True,OpenGVLab/InternVL2_5-8B,44.18181818181818,56.333333333333336,25.0,5.0,40.66666666666666,30.0,57.333333333333336,44.0,21.33333333333333,56.66666666666667,41.0
SmolVLM-Instruct,2024-12-11,2246272880.0,True,HuggingFaceTB/SmolVLM-Instruct,21.30909090909091,14.0,0.0,5.0,36.333333333333336,5.0,31.33333333333333,21.0,8.666666666666668,36.66666666666666,38.0
llava-onevision-qwen2-72b-ov-sft,2024-12-09,73173689888.0,True,lmms-lab/llava-onevision-qwen2-72b-ov-sft,54.14545454545454,77.83333333333333,65.0,5.0,71.0,5.0,79.33333333333334,23.0,18.33333333333333,54.0,86.0
Pixtral-12B-2409,2024-12-05,12682739712.0,True,mistralai/Pixtral-12B-2409,44.61818181818182,61.66666666666667,65.0,10.0,45.66666666666666,10.0,65.11111111111111,17.666666666666664,23.666666666666668,56.0,40.0
gpt-4-turbo-2024-04-09,2024-12-05,,False,,65.19999999999999,76.66666666666667,90.0,60.0,76.33333333333334,30.0,80.0,47.333333333333336,39.33333333333333,64.66666666666667,80.0
Llama-3.2-11B-Vision-Instruct,2024-12-05,10670220835.0,True,meta-llama/Llama-3.2-11B-Vision-Instruct,50.36363636363636,55.5,80.0,25.0,62.0,62.5,58.66666666666666,36.0,24.666666666666668,46.66666666666667,50.0
claude-3-haiku-20240307,2024-12-05,,False,,50.47272727272727,59.833333333333336,70.0,0.0,57.333333333333336,50.0,73.55555555555556,26.666666666666664,25.33333333333333,46.66666666666667,60.0
Llama-3.2-90B-Vision-Instruct,2024-12-09,88593355323.0,True,meta-llama/Llama-3.2-90B-Vision-Instruct,67.92727272727274,75.0,75.0,40.0,62.66666666666666,80.0,76.0,56.0,55.0,68.0,76.0
InternVL2-Llama3-76B,2024-12-09,76262358400.0,True,OpenGVLab/InternVL2-Llama3-76B,51.89090909090909,72.66666666666667,90.0,15.0,60.0,5.0,77.11111111111111,20.33333333333333,14.0,56.66666666666667,76.0
InternVL2-8B,2024-12-05,8075365376.0,True,OpenGVLab/InternVL2-8B,32.03636363636364,49.66666666666667,20.0,0.0,36.0,5.0,36.22222222222222,24.666666666666668,16.333333333333332,31.0,66.0
Qwen2-VL-72B-Instruct,2024-12-05,73405560320.0,True,Qwen/Qwen2-VL-72B-Instruct,74.76363636363637,86.66666666666666,80.0,45.0,62.66666666666666,75.0,83.11111111111111,64.0,84.33333333333334,61.333333333333336,70.0
llama-3.2-Korean-Bllossom-AICA-5B,2024-12-16,5198628129.0,True,Bllossom/llama-3.2-Korean-Bllossom-AICA-5B,40.18181818181819,47.83333333333333,35.0,0.0,43.33333333333333,35.0,51.55555555555556,36.66666666666666,23.0,50.66666666666666,20.0