Update README.md
#2
by
eltociear
- opened
README.md
CHANGED
@@ -58,7 +58,7 @@ For more details about Qwen-VL, please refer to our [technical memo](https://git
|
|
58 |
- Text-based VQA:评测模型对于图片中文字相关的识别/问答能力,例如文档问答、图表问答、文字问答等;
|
59 |
- Referring Expression Compression:评测模型给定物体描述画检测框的能力;
|
60 |
|
61 |
-
2. **试金石 (TouchStone)
|
62 |
- 评测基准总计涵盖 300+张图片、800+道题目、27个类别。包括基础属性问答、人物地标问答、影视作品问答、视觉推理、反事实推理、诗歌创作、故事写作,商品比较、图片解题等**尽可能广泛的类别**。
|
63 |
- 为了弥补目前 GPT4 无法直接读取图片的缺陷,我们给所有的带评测图片提供了**人工标注的充分详细描述**,并且将图片的详细描述、问题和模型的输出结果一起交给 GPT4 打分。
|
64 |
- 评测同时包含英文版本和中文版本。
|
|
|
58 |
- Text-based VQA:评测模型对于图片中文字相关的识别/问答能力,例如文档问答、图表问答、文字问答等;
|
59 |
- Referring Expression Compression:评测模型给定物体描述画检测框的能力;
|
60 |
|
61 |
+
2. **试金石 (TouchStone)** :为了评测模型整体的图文对话能力和人类对齐水平。我们为此构建了一个基于 GPT4 打分来评测 LVLM 模型的 Benchmark:TouchStone。在 TouchStone-v0.1 中:
|
62 |
- 评测基准总计涵盖 300+张图片、800+道题目、27个类别。包括基础属性问答、人物地标问答、影视作品问答、视觉推理、反事实推理、诗歌创作、故事写作,商品比较、图片解题等**尽可能广泛的类别**。
|
63 |
- 为了弥补目前 GPT4 无法直接读取图片的缺陷,我们给所有的带评测图片提供了**人工标注的充分详细描述**,并且将图片的详细描述、问题和模型的输出结果一起交给 GPT4 打分。
|
64 |
- 评测同时包含英文版本和中文版本。
|