IDEA-CCNL
/

Randeng-T5-Char-700M-MultiTask-Chinese

@@ -99,6 +99,92 @@ example_dict={
     "生成式摘要":{"text_a":"针对传统的流量分类管理系统存在不稳定、结果反馈不及时、分类结果显示不直观等问题,设计一个基于web的在线的流量分类管理系统.该系统采用流中前5个包(排除3次握手包)所含信息作为特征值计算资源,集成一种或多种分类算法用于在线网络流量分类,应用数据可视化技术处理分类结果.实验表明:在采用适应在线分类的特征集和c4.5决策树算法做分类时,系统能快速做出分类,且精度达到94％以上;数据可视化有助于人机交互,改善分类指导."}
 }
 ```
 ## 预训练或微调 prtrain or finetune

     "生成式摘要":{"text_a":"针对传统的流量分类管理系统存在不稳定、结果反馈不及时、分类结果显示不直观等问题,设计一个基于web的在线的流量分类管理系统.该系统采用流中前5个包(排除3次握手包)所含信息作为特征值计算资源,集成一种或多种分类算法用于在线网络流量分类,应用数据可视化技术处理分类结果.实验表明:在采用适应在线分类的特征集和c4.5决策树算法做分类时,系统能快速做出分类,且精度达到94％以上;数据可视化有助于人机交互,改善分类指导."}
 }
+# 构造prompt的过程中，verbalizer这个占位key的内容，是通过 "/".join(choices) 拼接起来
+dataset2instruction = {
+    "情感分析": {
+        "prompt": "{}任务：【{}】这篇文章的情感态度是什么？{}",
+        "keys_order": ["subtask_type","text_a", "verbalizer"],
+        "data_type": "classification",
+    },
+    "文本分类": {
+        "prompt": "{}任务：【{}】这篇文章的类别是什么？{}",
+        "keys_order": ["subtask_type","text_a", "verbalizer"],
+        "data_type": "classification",
+    },
+    "新闻分类": {
+        "prompt": "{}任务：【{}】这篇文章的类别是什么？{}",
+        "keys_order": ["subtask_type","text_a", "verbalizer"],
+        "data_type": "classification",
+    },
+    "意图识别": {
+        "prompt": "{}任务：【{}】这句话的意图是什么？{}",
+        "keys_order": ["subtask_type","text_a", "verbalizer"],
+        "data_type": "classification",
+    },
+# --------------------
+    "自然语言推理": {
+        "prompt": "{}任务：【{}】和【{}】，以上两句话的逻辑关系是什么？{}",
+        "keys_order": ["subtask_type","text_a", "text_b", "verbalizer"],
+        "data_type": "classification",
+    },
+    "语义匹配": {
+        "prompt": "{}任务：【{}】和【{}】，以上两句话的内容是否相似？{}",
+        "keys_order": ["subtask_type","text_a", "text_b", "verbalizer"],
+        "data_type": "classification",
+    },
+# -----------------------
+    "指代消解": {
+        "prompt": "{}任务：文章【{}】中{}{}",
+        "keys_order": ["subtask_type","text_a", "question", "verbalizer"],
+        "data_type": "classification",
+    },
+    "多项选择": {
+        "prompt": "{}任务：阅读文章【{}】问题【{}】？{}",
+        "keys_order": ["subtask_type","text_a", "question", "verbalizer"],
+        "data_type": "classification",
+    },
+# ------------------------
+    "抽取式阅读理解": {
+        "prompt": "{}任务：阅读文章【{}】问题【{}】的答案是什么？",
+        "keys_order": ["subtask_type","text_a", "question"],
+        "data_type": "mrc",
+    },
+    "实体识别": {
+        "prompt": "{}任务：找出【{}】这篇文章中所有【{}】类型的实体？",
+        "keys_order": ["subtask_type","text_a", "question"],
+        "data_type": "ner",
+    },
+# ------------------------
+    "关键词抽取": {
+        "prompt": "{}任务：【{}】这篇文章的关键词是什么？",
+        "keys_order": ["subtask_type","text_a"],
+        "data_type": "keys",
+    },
+    "关键词识别":{
+        "prompt": "{}任务：阅读文章【{}】问题【{}】{}",
+        "keys_order": ["subtask_type","text_a","question","verbalizer"],
+        "data_type": "classification",
+    },
+    "生成式摘要": {
+        "prompt": "{}任务：【{}】这篇文章的摘要是什么？",
+        "keys_order": ["subtask_type","text_a"],
+        "data_type": "summ",
+    },
+}
+def get_instruction(sample):
+    template = dataset2instruction[sample["subtask_type"]]
+    # print(template)
+    # print(sample)
+    sample["instruction"] = template["prompt"].format(*[
+                sample[k] for k in template["keys_order"]
+            ])
+    print(sample["instruction"])
+    return sample["instruction"]
 ```
 ## 预训练或微调 prtrain or finetune

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:457ad3eb9445ae64548659c7c1c3457b20568f7d930a883b9505a0f735605352
 size 2975290341

 version https://git-lfs.github.com/spec/v1
+oid sha256:25406e63570267edb03b27eb74a97dab81d0b2dddaeedd15661ea2c78cab3277
 size 2975290341