PKU-MI

university

https://mi.pku.edu.cn/

Activity Feed

AI & ML interests

None defined yet.

Organization Card

Community About org cards

智镜计划 - 中国传统艺术品鉴赏模型评测数据集

数据集描述

智镜计划（Zhijing Project） 是首个专注于评估大语言模型对中国传统艺术品鉴赏能力的评测项目。

本数据集采用 Arena对战形式，由艺术史、博物馆学等领域的专业评测者对模型生成的艺术品鉴赏文本进行盲评，评估维度包括：

专业知识准确性（年代、作者、流派）
审美范式理解（文人画、宫廷画、风俗画等）
技法分析能力（皴法、线描、设色等）
文化语境把握（题跋、用印、装裱等）

数据集统计

指标	数值
总样本数	3,882
参与模型数	28
图像数量	~18,500 张
数据来源	legacy (1,938条) + new (1,944条)

Winner分布

model_a    1451 (37.4%)
model_b    1344 (34.6%)
tie        1087 (28.0%)

年代分布

明          1131 (29.1%)
宋元         766 (19.7%)
其他         757 (19.5%)
唐前(含唐)    645 (16.6%)
清           583 (15.0%)

参与模型

国际模型:

anthropic/claude-opus-4.5, claude-sonnet-4.5, claude-3.7-sonnet
openai/gpt-4.1, o3, o4-mini-high
google/gemini-2.5-pro, gemini-2.5-flash, gemini-3-pro-preview
meta-llama/llama-4-maverick
x-ai/grok-4, grok-4.1-fast

中国模型:

doubao-seed-1-6-thinking, Doubao-1.5-vision-pro
Qwen3-VL-235B-A22B-Thinking, qwen2.5-vl-72b-instruct
glm-4.5v, thudm/glm-4.1v-9b-thinking
stepfun-ai/step3
tencent/hunyuan-t1-vision

数据字段

字段	类型	描述
id	string	唯一标识符 (evaluation_id)
timestamp	string	评测时间
artwork_id	string	艺术品ID
artwork_name	string	艺术品名称
image_path	string	艺术品图像路径 (images/artwork_id.jpg)
era	string	艺术品年代 (原始)
era_group	string	年代分组 (唐前(含唐)/宋元/明/清/其他)
author	string	作者
material	string	材质
collection	string	收藏地
model_a	string	模型A (统一名称)
model_b	string	模型B (统一名称)
response_a	string	模型A的鉴赏文本
response_b	string	模型B的鉴赏文本
winner	string	胜者 (model_a/model_b/tie)
feedback	string	评测者反馈
data_source	string	数据来源 (legacy/new)

图像使用

图像文件存放在 images/ 目录下，以 {artwork_id}.jpg 命名。

from datasets import load_dataset
from PIL import Image

dataset = load_dataset("your-username/zhijing-chinese-art-arena")

# 加载图像
sample = dataset['train'][0]
image = Image.open(sample['image_path'])

分析工具

本项目提供以下分析Notebook：

1. `analysis_visualization.ipynb`

模型胜率Bar图
胜率矩阵热力图
ELO分数及置信区间
不同朝代(唐前/宋元/明/清)模型表现对比

2. `chatbot_arena_comparison.ipynb`

智镜计划 vs Chatbot Arena Vision 排名对比
分析哪些模型在中国艺术任务上表现突出

错误类型分类

本项目建立了LLM中国古代艺术审美能力缺陷分类标准：

代码	类型	说明
K-Error	Knowledge	事实知识错误（年代、作者、流派等）
P-Error	Paradigm	审美范式错位（如将文人画误判为宫廷画）
C-Error	Context	文化语境缺失（缺乏对作品文化背景的理解）
D-Error	Detail	专业细节失察（技法、材质的错误描述）
L-Error	Language	语言与逻辑障碍（Lr-修辞冒进，Lg-论证跳步）

使用方式

from datasets import load_dataset

# 加载数据集
dataset = load_dataset("your-username/zhijing-chinese-art-arena")

# 查看数据示例
print(dataset['train'][0])

# 按年代筛选
song_yuan = dataset['train'].filter(lambda x: x['era_group'] == '宋元')

# 筛选特定模型的对战记录
gpt_battles = dataset['train'].filter(
    lambda x: 'gpt' in x['model_a'].lower() or 'gpt' in x['model_b'].lower()
)

许可证

本数据集采用 CC-BY-4.0 许可证发布。

引用

如果您使用了本数据集，请引用：

@dataset{zhijing_arena_2025,
  title={智镜计划 - 中国传统艺术品鉴赏模型评测数据集},
  author={Zhijing Project Team},
  year={2025},
  publisher={Hugging Face},
  url={https://huggingface.co/datasets/your-username/zhijing-chinese-art-arena}
}

致谢

感谢所有参与评测的艺术史专家和志愿者。

智镜计划 - 让AI更懂中国艺术之美

models 0

None public yet

datasets 0