ghh001 commited on
Commit
f66eaed
1 Parent(s): 1fad790

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +3 -63
README.md CHANGED
@@ -117,68 +117,8 @@ wiki_cate_schema_zh = {
117
 
118
 
119
 
120
- # 4.现成数据集
121
 
122
-
123
- | 名称 | 下载 | 数量 | 描述 |
124
- | ------------------- | ---------------------------------------------------------------------------------------------------------------------- | ------ | -------------------------------------------------------------------------------------------------------------------------------------------------------- |
125
- | InstructIE | [Google drive](https://drive.google.com/file/d/1raf0h98x3GgIhaDyNn1dLle9_HvwD6wT/view?usp=sharing) <br/> [百度云盘](https://pan.baidu.com/s/1-u8bD85H1Otbzk-gjLxaFw?pwd=c1i6) | 20w+ | InstructIE数据集(中英双语) |
126
-
127
-
128
-
129
- `InstructIE` 数据集包含两个核心文件夹:`InstructIE-zh` 和 `InstructIE-en`。这两个文件夹都涵盖了中英双语的基于主题的IE指令数据。
130
-
131
- - `'id'`:每条数据的唯一标识符,确保数据项的独立性和可追踪性。
132
- - `'cate'`:**文本主题**分类,为文本内容提供了一个高级的分类标签(共有12种主题)。
133
- - `'text'`:待抽取的文本。
134
- - `'relation'`:代表**关系**三元组,这些字段允许用户自由构建信息抽取的指令和预期输出结果。
135
-
136
-
137
-
138
- <details>
139
- <summary><b>各字段的说明</b></summary>
140
-
141
-
142
- | 字段 | 说明 |
143
- | :---------: | :----------------------------------------------------------: |
144
- | id | 每个数据点的唯一标识符。 |
145
- | cate | 文本的主题类别,总计12种不同的主题分类。 |
146
- | input | 模型的输入文本,目标是从中抽取涉及的所有关系三元组。 |
147
- | instruction | 指导模型执行信息抽取任务的指示。 |
148
- | output | 模型的预期输出结果。 |
149
- | relation | 描述文本中包含的关系三元组,即实体间的联系(head, relation, tail)。 |
150
-
151
- </details>
152
-
153
-
154
-
155
- <details>
156
- <summary><b>一条数据的示例</b></summary>
157
-
158
-
159
- ```json
160
- {
161
- "id": "四乙基锗_0",
162
- "cate": "自然科学",
163
- "input": "四乙基锗,简称TEG,是一种有机锗化合物,化学式4Ge。四乙基锗是锗的气相沉积法中一种重要的化合物。",
164
- "entity": [
165
- {"entity": "四乙基锗", "entity_type": "产品"},
166
- {"entity": "TEG", "entity_type": "产品"},
167
- {"entity": "有机锗化合物", "entity_type": "产品"},
168
- {"entity": "Ge", "entity_type": "产品"}
169
- ],
170
- "relation": [
171
- {"head": "四乙基锗", "relation": "别名", "tail": "TEG"}
172
- ]
173
- }
174
- ```
175
-
176
- </details>
177
-
178
-
179
-
180
-
181
- # 5.转换脚本
182
 
183
 
184
  **训练数据转换**
@@ -344,7 +284,7 @@ python kg2instruction/convert_test.py \
344
 
345
 
346
 
347
- # 6.使用
348
 
349
  我们提供了可直接使用 `zjunlp/knowlm-13b-ie` 模型进行推理的脚本[inference.py](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/src/inference.py), 请参考 [README.md](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/README.md) 配置环境等。
350
 
@@ -362,7 +302,7 @@ CUDA_VISIBLE_DEVICES="0" python src/inference.py \
362
 
363
 
364
 
365
- # 7.评估
366
  我们提供一个位于 [evaluate.py](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/kg2instruction/evaluate.py) 的脚本,用于将模型的字符串输出转换为列表并计算 F1 分数。
367
 
368
  ```bash
 
117
 
118
 
119
 
 
120
 
121
+ # 4.转换脚本
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
122
 
123
 
124
  **训练数据转换**
 
284
 
285
 
286
 
287
+ # 5.使用
288
 
289
  我们提供了可直接使用 `zjunlp/knowlm-13b-ie` 模型进行推理的脚本[inference.py](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/src/inference.py), 请参考 [README.md](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/README.md) 配置环境等。
290
 
 
302
 
303
 
304
 
305
+ # 6.评估
306
  我们提供一个位于 [evaluate.py](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/kg2instruction/evaluate.py) 的脚本,用于将模型的字符串输出转换为列表并计算 F1 分数。
307
 
308
  ```bash