PKU-MI
university
AI & ML interests
None defined yet.
Organization Card
智镜计划 - 中国传统艺术品鉴赏模型评测数据集
数据集描述
智镜计划(Zhijing Project) 是首个专注于评估大语言模型对中国传统艺术品鉴赏能力的评测项目。
本数据集采用 Arena对战形式,由艺术史、博物馆学等领域的专业评测者对模型生成的艺术品鉴赏文本进行盲评,评估维度包括:
- 专业知识准确性(年代、作者、流派)
- 审美范式理解(文人画、宫廷画、风俗画等)
- 技法分析能力(皴法、线描、设色等)
- 文化语境把握(题跋、用印、装裱等)
数据集统计
| 指标 | 数值 |
|---|---|
| 总样本数 | 3,882 |
| 参与模型数 | 28 |
| 图像数量 | ~18,500 张 |
| 数据来源 | legacy (1,938条) + new (1,944条) |
Winner分布
model_a 1451 (37.4%)
model_b 1344 (34.6%)
tie 1087 (28.0%)
年代分布
明 1131 (29.1%)
宋元 766 (19.7%)
其他 757 (19.5%)
唐前(含唐) 645 (16.6%)
清 583 (15.0%)
参与模型
国际模型:
- anthropic/claude-opus-4.5, claude-sonnet-4.5, claude-3.7-sonnet
- openai/gpt-4.1, o3, o4-mini-high
- google/gemini-2.5-pro, gemini-2.5-flash, gemini-3-pro-preview
- meta-llama/llama-4-maverick
- x-ai/grok-4, grok-4.1-fast
中国模型:
- doubao-seed-1-6-thinking, Doubao-1.5-vision-pro
- Qwen3-VL-235B-A22B-Thinking, qwen2.5-vl-72b-instruct
- glm-4.5v, thudm/glm-4.1v-9b-thinking
- stepfun-ai/step3
- tencent/hunyuan-t1-vision
数据字段
| 字段 | 类型 | 描述 |
|---|---|---|
| id | string | 唯一标识符 (evaluation_id) |
| timestamp | string | 评测时间 |
| artwork_id | string | 艺术品ID |
| artwork_name | string | 艺术品名称 |
| image_path | string | 艺术品图像路径 (images/artwork_id.jpg) |
| era | string | 艺术品年代 (原始) |
| era_group | string | 年代分组 (唐前(含唐)/宋元/明/清/其他) |
| author | string | 作者 |
| material | string | 材质 |
| collection | string | 收藏地 |
| model_a | string | 模型A (统一名称) |
| model_b | string | 模型B (统一名称) |
| response_a | string | 模型A的鉴赏文本 |
| response_b | string | 模型B的鉴赏文本 |
| winner | string | 胜者 (model_a/model_b/tie) |
| feedback | string | 评测者反馈 |
| data_source | string | 数据来源 (legacy/new) |
图像使用
图像文件存放在 images/ 目录下,以 {artwork_id}.jpg 命名。
from datasets import load_dataset
from PIL import Image
dataset = load_dataset("your-username/zhijing-chinese-art-arena")
# 加载图像
sample = dataset['train'][0]
image = Image.open(sample['image_path'])
分析工具
本项目提供以下分析Notebook:
1. analysis_visualization.ipynb
- 模型胜率Bar图
- 胜率矩阵热力图
- ELO分数及置信区间
- 不同朝代(唐前/宋元/明/清)模型表现对比
2. chatbot_arena_comparison.ipynb
- 智镜计划 vs Chatbot Arena Vision 排名对比
- 分析哪些模型在中国艺术任务上表现突出
错误类型分类
本项目建立了LLM中国古代艺术审美能力缺陷分类标准:
| 代码 | 类型 | 说明 |
|---|---|---|
| K-Error | Knowledge | 事实知识错误(年代、作者、流派等) |
| P-Error | Paradigm | 审美范式错位(如将文人画误判为宫廷画) |
| C-Error | Context | 文化语境缺失(缺乏对作品文化背景的理解) |
| D-Error | Detail | 专业细节失察(技法、材质的错误描述) |
| L-Error | Language | 语言与逻辑障碍(Lr-修辞冒进,Lg-论证跳步) |
使用方式
from datasets import load_dataset
# 加载数据集
dataset = load_dataset("your-username/zhijing-chinese-art-arena")
# 查看数据示例
print(dataset['train'][0])
# 按年代筛选
song_yuan = dataset['train'].filter(lambda x: x['era_group'] == '宋元')
# 筛选特定模型的对战记录
gpt_battles = dataset['train'].filter(
lambda x: 'gpt' in x['model_a'].lower() or 'gpt' in x['model_b'].lower()
)
许可证
本数据集采用 CC-BY-4.0 许可证发布。
引用
如果您使用了本数据集,请引用:
@dataset{zhijing_arena_2025,
title={智镜计划 - 中国传统艺术品鉴赏模型评测数据集},
author={Zhijing Project Team},
year={2025},
publisher={Hugging Face},
url={https://huggingface.co/datasets/your-username/zhijing-chinese-art-arena}
}
致谢
感谢所有参与评测的艺术史专家和志愿者。
智镜计划 - 让AI更懂中国艺术之美
models 0
None public yet
datasets 0
None public yet