AI & ML interests

None defined yet.

Organization Card

智镜计划 - 中国传统艺术品鉴赏模型评测数据集

samples models images license

数据集描述

智镜计划(Zhijing Project) 是首个专注于评估大语言模型对中国传统艺术品鉴赏能力的评测项目。

本数据集采用 Arena对战形式,由艺术史、博物馆学等领域的专业评测者对模型生成的艺术品鉴赏文本进行盲评,评估维度包括:

  • 专业知识准确性(年代、作者、流派)
  • 审美范式理解(文人画、宫廷画、风俗画等)
  • 技法分析能力(皴法、线描、设色等)
  • 文化语境把握(题跋、用印、装裱等)

数据集统计

指标 数值
总样本数 3,882
参与模型数 28
图像数量 ~18,500 张
数据来源 legacy (1,938条) + new (1,944条)

Winner分布

model_a    1451 (37.4%)
model_b    1344 (34.6%)
tie        1087 (28.0%)

年代分布

明          1131 (29.1%)
宋元         766 (19.7%)
其他         757 (19.5%)
唐前(含唐)    645 (16.6%)
清           583 (15.0%)

参与模型

国际模型:

  • anthropic/claude-opus-4.5, claude-sonnet-4.5, claude-3.7-sonnet
  • openai/gpt-4.1, o3, o4-mini-high
  • google/gemini-2.5-pro, gemini-2.5-flash, gemini-3-pro-preview
  • meta-llama/llama-4-maverick
  • x-ai/grok-4, grok-4.1-fast

中国模型:

  • doubao-seed-1-6-thinking, Doubao-1.5-vision-pro
  • Qwen3-VL-235B-A22B-Thinking, qwen2.5-vl-72b-instruct
  • glm-4.5v, thudm/glm-4.1v-9b-thinking
  • stepfun-ai/step3
  • tencent/hunyuan-t1-vision

数据字段

字段 类型 描述
id string 唯一标识符 (evaluation_id)
timestamp string 评测时间
artwork_id string 艺术品ID
artwork_name string 艺术品名称
image_path string 艺术品图像路径 (images/artwork_id.jpg)
era string 艺术品年代 (原始)
era_group string 年代分组 (唐前(含唐)/宋元/明/清/其他)
author string 作者
material string 材质
collection string 收藏地
model_a string 模型A (统一名称)
model_b string 模型B (统一名称)
response_a string 模型A的鉴赏文本
response_b string 模型B的鉴赏文本
winner string 胜者 (model_a/model_b/tie)
feedback string 评测者反馈
data_source string 数据来源 (legacy/new)

图像使用

图像文件存放在 images/ 目录下,以 {artwork_id}.jpg 命名。

from datasets import load_dataset
from PIL import Image

dataset = load_dataset("your-username/zhijing-chinese-art-arena")

# 加载图像
sample = dataset['train'][0]
image = Image.open(sample['image_path'])

分析工具

本项目提供以下分析Notebook:

1. analysis_visualization.ipynb

  • 模型胜率Bar图
  • 胜率矩阵热力图
  • ELO分数及置信区间
  • 不同朝代(唐前/宋元/明/清)模型表现对比

2. chatbot_arena_comparison.ipynb

  • 智镜计划 vs Chatbot Arena Vision 排名对比
  • 分析哪些模型在中国艺术任务上表现突出

错误类型分类

本项目建立了LLM中国古代艺术审美能力缺陷分类标准:

代码 类型 说明
K-Error Knowledge 事实知识错误(年代、作者、流派等)
P-Error Paradigm 审美范式错位(如将文人画误判为宫廷画)
C-Error Context 文化语境缺失(缺乏对作品文化背景的理解)
D-Error Detail 专业细节失察(技法、材质的错误描述)
L-Error Language 语言与逻辑障碍(Lr-修辞冒进,Lg-论证跳步)

使用方式

from datasets import load_dataset

# 加载数据集
dataset = load_dataset("your-username/zhijing-chinese-art-arena")

# 查看数据示例
print(dataset['train'][0])

# 按年代筛选
song_yuan = dataset['train'].filter(lambda x: x['era_group'] == '宋元')

# 筛选特定模型的对战记录
gpt_battles = dataset['train'].filter(
    lambda x: 'gpt' in x['model_a'].lower() or 'gpt' in x['model_b'].lower()
)

许可证

本数据集采用 CC-BY-4.0 许可证发布。

引用

如果您使用了本数据集,请引用:

@dataset{zhijing_arena_2025,
  title={智镜计划 - 中国传统艺术品鉴赏模型评测数据集},
  author={Zhijing Project Team},
  year={2025},
  publisher={Hugging Face},
  url={https://huggingface.co/datasets/your-username/zhijing-chinese-art-arena}
}

致谢

感谢所有参与评测的艺术史专家和志愿者。


智镜计划 - 让AI更懂中国艺术之美

models 0

None public yet

datasets 0

None public yet