neukg commited on
Commit
63aa6a1
1 Parent(s): 26ef292

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +19 -16
README.md CHANGED
@@ -9,7 +9,9 @@ HuggingFace🤗: [neukg/TechGPT-7B](https://huggingface.co/neukg)
9
  </div>
10
 
11
  ## 引言
12
- 着大模型时代的到来,大模型与知识图谱融合的工作日益成为当前研究的热点。为了对这项工作提供研究基础,东北大学知识图谱研究组于2023年6月发布了[TechGPT-1.0](https://github.com/neukg/TechGPT)大模型。在此基础上,经过几个月的工作,东北大学知识图谱研究组发布 **TechGPT-2.0** 大模型。在继承TechGPT-1.0全部功能的基础上,TechGPT-2.0 **对其多项功能进行了增强**,并**扩充了一些新功能**。
 
 
13
  ## 内容导引
14
  | 章节 | 描述 |
15
  |----------------------|-----------------------------|
@@ -20,21 +22,21 @@ HuggingFace🤗: [neukg/TechGPT-7B](https://huggingface.co/neukg)
20
  | [💯系统效果](#系统效果) | 展示了模型在部分任务上的效果 |
21
 
22
  ## 模型简介
23
- TechGPT-2.0 为 TechGPT-1.0 基础上的改进版本,此次共发布两个7B版本的模型分别为**TechGPT2-Alpaca**、**TechGPT2-Atom**。
24
 
25
- TechGPT-2.0 较 TechGPT-1.0 新加了许多领域知识。除了 TechGPT-1.0 所具备的计算机科学、材料、机械、冶金、金融和航空航天等十余种垂直专业领域能力,TechGPT-2.0 还在**医学、法律领域**展现出优秀的能力,并扩充了**地理地区、运输、组织、作品、生物、自然科学、天文对象、建筑**等领域能力。除此之外,我们的工作还对**幻觉、不可回答问题、长文本**等任务进行了研究。
26
 
27
- **东北大学知识图谱研究组**与**华为沈阳人工智能计算中心**合作,使用**华为昇腾服务器**(具体为4机*8卡-32G 910A)进行**全量微调**。
28
 
29
  ## 模型亮点
30
- TechGPT-2.0 在继承了 TechGPT-1.0 的能力上进行了重要的改进,其中最显著的优化是**引入了命名实体识别的领域数据**,并且**使模型具备了对嵌套实体的抽取能力**。以下为TechGPT-2.0大模型的亮点介绍:
31
- - 首先,TechGPT-2.0 在**医学领域**的表达和理解方面取得了显著的提升。模型能够对疾病、药物、专业术语等实体的进行更准确识别,这表明模型在处理医学文本时能够更全面地理解上下文信息。除此之外,TechGPT-2.0 还能够理解医学文本中的复杂关系、疾病诊断、治疗方案等内容。这种全面的医学分析能力使得模型可以用于协助医生阅读医学文献、提供患者诊断建议等应用场景,从而提高医学领域的信息处理效率和准确性。
32
- - 其次,TechGPT-2.0 能够理解和解释法律文本,包括法规、合同和案例法等。这使得模型在**法律领域**的应用更为广泛,并可以用于解决自动化合同审查、法规遵循检查等任务。模型通过学习法律用语和结构,能够更准确地捕捉文本中的法律关系和条款,为用户提供更有深度和专业性的法律分析。
33
- - 再次,TechGPT-2.0 的另一个重要特性是能够**抽取嵌套实体**。这意味着模型可以更灵活地处理实体之间的复杂关系,深入挖掘文本中的层次结构,提高了对复杂文本的理解和生成能力。例如,在医学文献中,可能存在嵌套的实体关系,如疾病的亚型、药物的剂量信息等,TechGPT-2.0 能够更好地捕捉这些信息,并在生成回应时更准确地反映上下文的语境。
34
- - 另外,TechGPT-2.0 ��在**幻觉、长文本以及与人类价值观对齐方面进行了强化**。模型通过对话和理解上下文,能够更好地理解人类的感受和价值观,并在回应中考虑这些因素。此外,TechGPT-2.0能够支持最大长度12K的文本输入。这使得模型能够更好地与人类用户进行交互,更好地满足用户的需求和期望,进一步提升了人机交互的质量和用户体验。
35
- - 最后,TechGPT-2.0 的训练使用**华为昇腾910A服务器**,并基于**华为Mindspore框架**以及Mindformer套件进行开发,采用分布式训练方案,机器数量为4机*8卡(32G)。目前TechGPT-2.0推理部署在使用**NVIDIA**的显卡并使用float16的情况下显存仅需**15G**,INT8量化下显存占用**8G**,INT4量化下显存仅需**5G**;NAVID 4090单机单卡、或昇腾910A单机单卡就可完成推理部署。
36
 
37
- 总体而言,TechGPT-2.0 在继承了 TechGPT-1.0 的强大自然语言处理能力的同时,**通过增加多领域、多任务的数据,展现出了嵌套实体的抽取、幻觉回答、回答不可回答问题和回答长文本问题的能力**。这些改进使得模型更适用于广泛的应用场景,为用户提供了更准确、更深入的信息处理和生成能力。
38
 
39
  ## 模型下载与体验
40
  ### 下载地址
@@ -51,12 +53,12 @@ TechGPT-2.0 在继承了 TechGPT-1.0 的能力上进行了重要的改进,其
51
  - **TechGPT2-Atom** 使用Llama中文社区联合AtomEcho(原子回声)共同发布的Atom-7B-chat,并在此基础上进行全量微调后获得。
52
  - 此外,我们使用**QLora线性插值法**微调的长文本模型的Lora权重也已经发布在huggingface上,请自行下载合并。
53
 
54
- 我们TechGPT-2的两个**7B**版本的模型已经在Hugging Face和GitHub上开源,使用后续在此模型基础上的改进,也将开源到相同账号,欢迎各位使用并提出宝贵的意见。
55
 
56
  ### 模型体验
57
- 我们目前���外提供TechGPT-1.0与TechGPT2-Atom版本的在线服务:http://techgpt.neukg.com/
58
 
59
- 作为一个学术组织,我们无法同时提供三个模型的在线服务,因此建议大家后续通过开源权重自行体验,共同创建更好的中文大模型开源环境。
60
 
61
  ## 环境部署
62
  ### 在华为昇腾 910 NPU 服务器上的环境要求
@@ -225,6 +227,7 @@ with torch.no_grad():
225
  TechGPT-2.0 在保留了 TechGPT-1.0 模型的通用能力、实体识别能力以及三元组抽取能力的基础上,能够完成**更为复杂的嵌套实体识别**,并在**医学、法律领域**展现出优秀的能力,此外对**幻觉、不可回答问题以及长文本问题**有着较好的解决能力。
226
 
227
  下面展示了TechGPT-2.0 的几个新增能力的样例。
 
228
  1. **医学NER**
229
  <table> <colgroup> <col style="width:50%"> <col style="width:50%"> </colgroup> <tr> <td>问题</td> <td>回复</td> </tr>
230
  <tr><td>这句话中是否有实体?如果有,请列举出来。<br/>依据主要病变部位分为下列数型:脊髓型最常见,为脊髓前角细胞受损所致,表现为分布不对称、不规则的弛缓性肌肉瘫痪,四肢多见,下肢尤甚。 </td> <td>实体名:先天畸形, 实体类型:疾病<br/>实体名:发育障碍, 实体类型:临床表现<br/>实体名:上、下呼吸道梗阻, 实体类型:疾病<br/>实体名:膈疝, 实体类型:疾病<br/>实体名:肺部受压迫, 实体类型:临床表现<br/>实体名:肺, 实体类型:身体<br/>实体名:呼吸衰竭, 实体类型:疾病
@@ -381,12 +384,12 @@ TechGPT-2.0 在保留了 TechGPT-1.0 模型的通用能力、实体识别能力
381
  </td> </tr>
382
  </table>
383
 
384
- 经过我们的微调,目前TechGPT-2.0对其不知道的问题会直接进行不可回答的回复,对与人类价值观相悖的问题会进行否定回答并给出合理建议。
385
 
386
  另外,还需注意,上述结果并非设置为相同的输出长度。在默认输出长度设置下,模型输出的结果偏保守,即很多正确的结果在强制大模型输出更长结果的条件下可以得到,但在默认输出长度设置条件下,这些正确的结果并没有被模型输出;有时也可能因为强制模型输出的长度过长,导致模型过分填充一些无用字符。
387
 
388
  ## 总结
389
- **TechGPT-2.0** 在许多方面进行了改进,使模型能够拥有更强的知识图谱构建能力尤其是在**嵌套NER**以及**医学、法律**领域能力的提升,并且模型对**幻觉等边界问题以及长文本问题**的回答也得到了改善。
390
 
391
  目前,我们对TechGPT的研究也在持续进行中,如外挂知识库、大模型与知识图谱融合、长文本问题优化等方向。
392
 
 
9
  </div>
10
 
11
  ## 引言
12
+ 随着大模型时代的到来,大模型与知识图谱融合的工作日益成为当前研究的热点。为了对这项工作提供研究基础,东北大学知识图谱研究组于2023年6月发布了 [TechGPT-1.0](https://github.com/neukg/TechGPT) 大模型。
13
+
14
+ 在 TechGPT-1.0 基础上,经过几个月的努力,东北大学知识图谱研究组发布功能更全、性能更好的 **TechGPT-2.0** 大模型。TechGPT-2.0 延续了 TechGPT-1.0 以“**知识图谱构建**”与“**智能问答**”为核心的构建目标,在继承 TechGPT-1.0 全部功能的基础上,**对其多项功能进行了增强**,并**扩充了一些新功能**。
15
  ## 内容导引
16
  | 章节 | 描述 |
17
  |----------------------|-----------------------------|
 
22
  | [💯系统效果](#系统效果) | 展示了模型在部分任务上的效果 |
23
 
24
  ## 模型简介
25
+ TechGPT-2.0 为 TechGPT-1.0 基础上的改进版本,其采用华为**昇腾服务器**(4机*8卡-32G 910A)、**华为MindSpore框架**、采用**全量微调**方式训练完成。此次共发布两个7B版本的 TechGPT-2.0 模型,分别为**TechGPT2-Alpaca**、**TechGPT2-Atom**。
26
 
27
+ TechGPT-2.0 较 TechGPT-1.0 新加了许多领域知识。除了 TechGPT-1.0 所具备的计算机科学、材料、机械、冶金、金融和航空航天等十余种垂直专业领域能力,TechGPT-2.0 还在**医学、法律领域**展现出优秀的能力,并扩充了**地理地区、运输、组织、作品、生物、自然科学、天文对象、建筑**等领域文本的处理能力。TechGPT-2.0 还对**幻觉、不可回答、长文本处理**等问题进行了能力增强。
28
 
29
+ 同时,TechGPT-2.0 对部署的硬件要求更低,使用 NVIDIA 4090 单机单卡、或昇腾910A单机单卡就可完成 TechGPT-2.0 模型部署。
30
 
31
  ## 模型亮点
32
+ TechGPT-2.0 在继承了 TechGPT-1.0 的能力上进行了重要的改进,具有以下几项新增亮点功能:
33
+ - 首先,TechGPT-2.0 在**医学领域**文本的处理能力取得了显著提升。TechGPT-2.0 在处理医学文本时能够更全面地理解上下文信息,能够对疾病、药物、专业术语等实体的进行更准确识别,还能够理解医学文本中的复杂关系、疾病诊断、治疗方案等内容。这种全面的医学分析能力使得模型可以用于协助医生阅读医学文献、提供患者诊断建议等应用场景,从而提高医学领域的信息处理效率和准确性。
34
+ - 其次,TechGPT-2.0 能够理解和解释法律文本,包括法规、合同和案例法等。TechGPT-2.0 通过学习法律用语和结构,能够更准确地捕捉文本中的法律关系和条款,为用户提供更有深度和专业性的法律分析。这使得 TechGPT-2.0 模型在**法律领域**中的应用前景更为广泛,可以用于解决自动化合同审查、法规遵循检查等任务。
35
+ - 再次,TechGPT-2.0 增强了对**嵌套实体**。的抽取能力。即 TechGPT-2.0 可以更灵活地处理实体之间的复杂关系,深入挖掘文本中的层次结构,提高了对复杂文本的理解和生成能力。例如,在医学文献中,可能存在嵌套的实体关系,如疾病的亚型、药物的剂量信息等,TechGPT-2.0 能够更好地捕捉这些信息,并在生成回应时更准确地反映上下文的语境。
36
+ - 另外,TechGPT-2.0 在**幻觉、不可回答问题、长文本处理、以及与人类价值观对齐方面进行了强化**。TechGPT-2.0通过对话和理解上下文,能够更好地理解人类的感受和价值观,并在回应中考虑这些因素。此外,TechGPT-2.0 能够支持最大长度12K的文本输入,这使得模型能够更好地与人类用户进行交互,更好地满足用户的需求和期望,进一步提升了人机交互的质量和用户体验。
37
+ - 最后,TechGPT-2.0 使用**华为昇腾910A服务器**、**华为Mindspore框架**以及Mindformer套件进行开发,采用分布式训练方案,使用服务器数量为4机*8卡(32G),具有更低的部署硬件要求。目前 TechGPT-2.0 的部署在使用**NVIDIA**的显卡并使用float16的情况下显存仅需**15G**,INT8量化下显存占用**8G**,INT4量化下显存仅需**5G**;NVIDIA 4090单机单卡、或昇腾910A单机单卡就可以部署 TechGPT-2.0 模型。
38
 
39
+ 总体而言,TechGPT-2.0 在继承了 TechGPT-1.0 的全部特性的同时,**通过增加多领域、多任务的数据,展现出了嵌套实体的抽取、幻觉回答、回答不可回答问题和回答长文本问题的能力**。这些改进使得模型更适用于广泛的应用场景,为用户提供了更准确、更深入的信息处理和生成能力。
40
 
41
  ## 模型下载与体验
42
  ### 下载地址
 
53
  - **TechGPT2-Atom** 使用Llama中文社区联合AtomEcho(原子回声)共同发布的Atom-7B-chat,并在此基础上进行全量微调后获得。
54
  - 此外,我们使用**QLora线性插值法**微调的长文本模型的Lora权重也已经发布在huggingface上,请自行下载合并。
55
 
56
+ 我们TechGPT-2的两个**7B**版本的模型、以及使用**QLora线性插值法**微调的长文本模型都已经在Hugging Face和GitHub上开源,后续在这些模型基础上的改进,也将开源到相同账号,欢迎大家使用并提出宝贵的意见。
57
 
58
  ### 模型体验
59
+ 我们目前对外提供 TechGPT-1.0 TechGPT2-Atom 版本的在线服务:http://techgpt.neukg.com/
60
 
61
+ 作为一个学术组织,我们无法长期提供模型的在线服务功能,当前的体验系统存在着随时下线的可能。因此建议大家后续通过开源权重自行体验,共同创建更好的中文大模型开源环境。
62
 
63
  ## 环境部署
64
  ### 在华为昇腾 910 NPU 服务器上的环境要求
 
227
  TechGPT-2.0 在保留了 TechGPT-1.0 模型的通用能力、实体识别能力以及三元组抽取能力的基础上,能够完成**更为复杂的嵌套实体识别**,并在**医学、法律领域**展现出优秀的能力,此外对**幻觉、不可回答问题以及长文本问题**有着较好的解决能力。
228
 
229
  下面展示了TechGPT-2.0 的几个新增能力的样例。
230
+
231
  1. **医学NER**
232
  <table> <colgroup> <col style="width:50%"> <col style="width:50%"> </colgroup> <tr> <td>问题</td> <td>回复</td> </tr>
233
  <tr><td>这句话中是否有实体?如果有,请列举出来。<br/>依据主要病变部位分为下列数型:脊髓型最常见,为脊髓前角细胞受损所致,表现为分布不对称、不规则的弛缓性肌肉瘫痪,四肢多见,下肢尤甚。 </td> <td>实体名:先天畸形, 实体类型:疾病<br/>实体名:发育障碍, 实体类型:临床表现<br/>实体名:上、下呼吸道梗阻, 实体类型:疾病<br/>实体名:膈疝, 实体类型:疾病<br/>实体名:肺部受压迫, 实体类型:临床表现<br/>实体名:肺, 实体类型:身体<br/>实体名:呼吸衰竭, 实体类型:疾病
 
384
  </td> </tr>
385
  </table>
386
 
387
+ 经过我们的微调,目前 TechGPT-2.0 对其不知道的问题会直接进行不可回答的回复,对与人类价值观相悖的问题会进行否定回答并给出合理建议。
388
 
389
  另外,还需注意,上述结果并非设置为相同的输出长度。在默认输出长度设置下,模型输出的结果偏保守,即很多正确的结果在强制大模型输出更长结果的条件下可以得到,但在默认输出长度设置条件下,这些正确的结果并没有被模型输出;有时也可能因为强制模型输出的长度过长,导致模型过分填充一些无用字符。
390
 
391
  ## 总结
392
+ TechGPT-1.0 相比,**TechGPT-2.0** 在许多方面进行了改进,新模型具有更强的**知识图谱构建**能力、以及**智能问答**能力。尤其是在**嵌套NER**以及**医学、法律**领域能力的提升,并且模型对**幻觉等边界问题以及长文本问题**的回答也得到了改善。
393
 
394
  目前,我们对TechGPT的研究也在持续进行中,如外挂知识库、大模型与知识图谱融合、长文本问题优化等方向。
395