neukg
/

TechGPT-2.0-alpaca-hf

@@ -9,7 +9,9 @@ HuggingFace🤗: [neukg/TechGPT-7B](https://huggingface.co/neukg)
 </div>
 ## 引言
-着大模型时代的到来，大模型与知识图谱融合的工作日益成为当前研究的热点。为了对这项工作提供研究基础，东北大学知识图谱研究组于2023年6月发布了[TechGPT-1.0](https://github.com/neukg/TechGPT)大模型。在此基础上，经过几个月的工作，东北大学知识图谱研究组发布 **TechGPT-2.0** 大模型。在继承TechGPT-1.0全部功能的基础上，TechGPT-2.0 **对其多项功能进行了增强**，并**扩充了一些新功能**。
 ## 内容导引
 | 章节                   | 描述                          |
 |----------------------|-----------------------------|
@@ -20,21 +22,21 @@ HuggingFace🤗: [neukg/TechGPT-7B](https://huggingface.co/neukg)
 | [💯系统效果](#系统效果)      | 展示了模型在部分任务上的效果              |
 ## 模型简介
-TechGPT-2.0 为 TechGPT-1.0 基础上的改进版本，此次共发布两个7B版本的模型分别为**TechGPT2-Alpaca**、**TechGPT2-Atom**。
-TechGPT-2.0 较 TechGPT-1.0 新加了许多领域知识。除了 TechGPT-1.0 所具备的计算机科学、材料、机械、冶金、金融和航空航天等十余种垂直专业领域能力，TechGPT-2.0 还在**医学、法律领域**展现出优秀的能力，并扩充了**地理地区、运输、组织、作品、生物、自然科学、天文对象、建筑**等领域能力。除此之外，我们的工作还对**幻觉、不可回答问题、长文本**等任务进行了研究。
-**东北大学知识图谱研究组**与**华为沈阳人工智能计算中心**合作，使用**华为昇腾服务器**（具体为4机*8卡-32G 910A）进行**全量微调**。
 ## 模型亮点
-TechGPT-2.0 在继承了 TechGPT-1.0 的能力上进行了重要的改进，其中最显著的优化是**引入了命名实体识别的领域数据**，并且**使模型具备了对嵌套实体的抽取能力**。以下为TechGPT-2.0大模型的亮点介绍：
-- 首先，TechGPT-2.0 在**医学领域**的表达和理解方面取得了显著的提升。模型能够对疾病、药物、专业术语等实体的进行更准确识别，这表明模型在处理医学文本时能够更全面地理解上下文信息。除此之外，TechGPT-2.0 还能够理解医学文本中的复杂关系、疾病诊断、治疗方案等内容。这种全面的医学分析能力使得模型可以用于协助医生阅读医学文献、提供患者诊断建议等应用场景，从而提高医学领域的信息处理效率和准确性。
-- 其次，TechGPT-2.0 能够理解和解释法律文本，包括法规、合同和案例法等。这使得模型在**法律领域**的应用更为广泛，并可以用于解决自动化合同审查、法规遵循检查等任务。模型通过学习法律用语和结构，能够更准确地捕捉文本中的法律关系和条款，为用户提供更有深度和专业性的法律分析。
-- 再次，TechGPT-2.0 的另一个重要特性是能够**抽取嵌套实体**。这意味着模型可以更灵活地处理实体之间的复杂关系，深入挖掘文本中的层次结构，提高了对复杂文本的理解和生成能力。例如，在医学文献中，可能存在嵌套的实体关系，如疾病的亚型、药物的剂量信息等，TechGPT-2.0 能够更好地捕捉这些信息，并在生成回应时更准确地反映上下文的语境。
-- 另外，TechGPT-2.0 ��在**幻觉、长文本以及与人类价值观对齐方面进行了强化**。模型通过对话和理解上下文，能够更好地理解人类的感受和价值观，并在回应中考虑这些因素。此外，TechGPT-2.0能够支持最大长度12K的文本输入。这使得模型能够更好地与人类用户进行交互，更好地满足用户的需求和期望，进一步提升了人机交互的质量和用户体验。
-- 最后，TechGPT-2.0 的训练使用**华为昇腾910A服务器**，并基于**华为Mindspore框架**以及Mindformer套件进行开发，采用分布式训练方案，机器数量为4机*8卡（32G）。目前TechGPT-2.0推理部署在使用**NVIDIA**的显卡并使用float16的情况下显存仅需**15G**，INT8量化下显存占用**8G**，INT4量化下显存仅需**5G**；NAVID 4090单机单卡、或昇腾910A单机单卡就可完成推理部署。
-总体而言，TechGPT-2.0 在继承了 TechGPT-1.0 的强大自然语言处理能力的同时，**通过增加多领域、多任务的数据，展现出了嵌套实体的抽取、幻觉回答、回答不可回答问题和回答长文本问题的能力**。这些改进使得模型更适用于广泛的应用场景，为用户提供了更准确、更深入的信息处理和生成能力。
 ## 模型下载与体验
 ### 下载地址
@@ -51,12 +53,12 @@ TechGPT-2.0 在继承了 TechGPT-1.0 的能力上进行了重要的改进，其
 - **TechGPT2-Atom** 使用Llama中文社区联合AtomEcho（原子回声）共同发布的Atom-7B-chat，并在此基础上进行全量微调后获得。
 - 此外，我们使用**QLora线性插值法**微调的长文本模型的Lora权重也已经发布在huggingface上，请自行下载合并。
-我们TechGPT-2的两个**7B**版本的模型已经在Hugging Face和GitHub上开源，使用后续在此模型基础上的改进，也将开源到相同账号，欢迎各位使用并提出宝贵的意见。
 ### 模型体验
-我们目前���外提供TechGPT-1.0与TechGPT2-Atom版本的在线服务：http://techgpt.neukg.com/
-作为一个学术组织，我们无法同时提供三个模型的在线服务，因此建议大家后续通过开源权重自行体验，共同创建更好的中文大模型开源环境。
 ## 环境部署
 ### 在华为昇腾 910 NPU 服务器上的环境要求
@@ -225,6 +227,7 @@ with torch.no_grad():
 TechGPT-2.0 在保留了 TechGPT-1.0 模型的通用能力、实体识别能力以及三元组抽取能力的基础上，能够完成**更为复杂的嵌套实体识别**，并在**医学、法律领域**展现出优秀的能力，此外对**幻觉、不可回答问题以及长文本问题**有着较好的解决能力。
 下面展示了TechGPT-2.0 的几个新增能力的样例。
 1. **医学NER**
 <table>   <colgroup>     <col style="width:50%">     <col style="width:50%">   </colgroup>   <tr>     <td>问题</td>     <td>回复</td> </tr>
 <tr><td>这句话中是否有实体？如果有，请列举出来。<br/>依据主要病变部位分为下列数型：脊髓型最常见，为脊髓前角细胞受损所致，表现为分布不对称、不规则的弛缓性肌肉瘫痪，四肢多见，下肢尤甚。 </td>     <td>实体名:先天畸形, 实体类型:疾病<br/>实体名:发育障碍, 实体类型:临床表现<br/>实体名:上、下呼吸道梗阻, 实体类型:疾病<br/>实体名:膈疝, 实体类型:疾病<br/>实体名:肺部受压迫, 实体类型:临床表现<br/>实体名:肺, 实体类型:身体<br/>实体名:呼吸衰竭, 实体类型:疾病
@@ -381,12 +384,12 @@ TechGPT-2.0 在保留了 TechGPT-1.0 模型的通用能力、实体识别能力
 </td> </tr>
 </table>
-经过我们的微调，目前TechGPT-2.0对其不知道的问题会直接进行不可回答的回复，对与人类价值观相悖的问题会进行否定回答并给出合理建议。
 另外，还需注意，上述结果并非设置为相同的输出长度。在默认输出长度设置下，模型输出的结果偏保守，即很多正确的结果在强制大模型输出更长结果的条件下可以得到，但在默认输出长度设置条件下，这些正确的结果并没有被模型输出；有时也可能因为强制模型输出的长度过长，导致模型过分填充一些无用字符。
 ## 总结
-**TechGPT-2.0** 在许多方面进行了改进，使模型能够拥有更强的知识图谱构建能力尤其是在**嵌套NER**以及**医学、法律**领域能力的提升，并且模型对**幻觉等边界问题以及长文本问题**的回答也得到了改善。
 目前，我们对TechGPT的研究也在持续进行中，如外挂知识库、大模型与知识图谱融合、长文本问题优化等方向。

 </div>
 ## 引言
+随着大模型时代的到来，大模型与知识图谱融合的工作日益成为当前研究的热点。为了对这项工作提供研究基础，东北大学知识图谱研究组于2023年6月发布了 [TechGPT-1.0](https://github.com/neukg/TechGPT) 大模型。
+在 TechGPT-1.0 基础上，经过几个月的努力，东北大学知识图谱研究组发布功能更全、性能更好的 **TechGPT-2.0** 大模型。TechGPT-2.0 延续了 TechGPT-1.0 以“**知识图谱构建**”与“**智能问答**”为核心的构建目标，在继承 TechGPT-1.0 全部功能的基础上，**对其多项功能进行了增强**，并**扩充了一些新功能**。
 ## 内容导引
 | 章节                   | 描述                          |
 |----------------------|-----------------------------|
 | [💯系统效果](#系统效果)      | 展示了模型在部分任务上的效果              |
 ## 模型简介
+TechGPT-2.0 为 TechGPT-1.0 基础上的改进版本，其采用华为**昇腾服务器**（4机*8卡-32G 910A）、**华为MindSpore框架**、采用**全量微调**方式训练完成。此次共发布两个7B版本的 TechGPT-2.0 模型，分别为**TechGPT2-Alpaca**、**TechGPT2-Atom**。
+TechGPT-2.0 较 TechGPT-1.0 新加了许多领域知识。除了 TechGPT-1.0 所具备的计算机科学、材料、机械、冶金、金融和航空航天等十余种垂直专业领域能力，TechGPT-2.0 还在**医学、法律领域**展现出优秀的能力，并扩充了**地理地区、运输、组织、作品、生物、自然科学、天文对象、建筑**等领域文本的处理能力。TechGPT-2.0 还对**幻觉、不可回答、长文本处理**等问题进行了能力增强。
+同时，TechGPT-2.0 对部署的硬件要求更低，使用 NVIDIA 4090 单机单卡、或昇腾910A单机单卡就可完成 TechGPT-2.0 模型部署。
 ## 模型亮点
+TechGPT-2.0 在继承了 TechGPT-1.0 的能力上进行了重要的改进，具有以下几项新增亮点功能：
+- 首先，TechGPT-2.0 在**医学领域**文本的处理能力取得了显著提升。TechGPT-2.0 在处理医学文本时能够更全面地理解上下文信息，能够对疾病、药物、专业术语等实体的进行更准确识别，还能够理解医学文本中的复杂关系、疾病诊断、治疗方案等内容。这种全面的医学分析能力使得模型可以用于协助医生阅读医学文献、提供患者诊断建议等应用场景，从而提高医学领域的信息处理效率和准确性。
+- 其次，TechGPT-2.0 能够理解和解释法律文本，包括法规、合同和案例法等。TechGPT-2.0 通过学习法律用语和结构，能够更准确地捕捉文本中的法律关系和条款，为用户提供更有深度和专业性的法律分析。这使得 TechGPT-2.0 模型在**法律领域**中的应用前景更为广泛，可以用于解决自动化合同审查、法规遵循检查等任务。
+- 再次，TechGPT-2.0 增强了对**嵌套实体**。的抽取能力。即 TechGPT-2.0 可以更灵活地处理实体之间的复杂关系，深入挖掘文本中的层次结构，提高了对复杂文本的理解和生成能力。例如，在医学文献中，可能存在嵌套的实体关系，如疾病的亚型、药物的剂量信息等，TechGPT-2.0 能够更好地捕捉这些信息，并在生成回应时更准确地反映上下文的语境。
+- 另外，TechGPT-2.0 在**幻觉、不可回答问题、长文本处理、以及与人类价值观对齐方面进行了强化**。TechGPT-2.0通过对话和理解上下文，能够更好地理解人类的感受和价值观，并在回应中考虑这些因素。此外，TechGPT-2.0 能够支持最大长度12K的文本输入，这使得模型能够更好地与人类用户进行交互，更好地满足用户的需求和期望，进一步提升了人机交互的质量和用户体验。
+- 最后，TechGPT-2.0 使用**华为昇腾910A服务器**、**华为Mindspore框架**以及Mindformer套件进行开发，采用分布式训练方案，使用服务器数量为4机*8卡（32G），具有更低的部署硬件要求。目前 TechGPT-2.0 的部署在使用**NVIDIA**的显卡并使用float16的情况下显存仅需**15G**，INT8量化下显存占用**8G**，INT4量化下显存仅需**5G**；NVIDIA 4090单机单卡、或昇腾910A单机单卡就可以部署 TechGPT-2.0 模型。
+总体而言，TechGPT-2.0 在继承了 TechGPT-1.0 的全部特性的同时，**通过增加多领域、多任务的数据，展现出了嵌套实体的抽取、幻觉回答、回答不可回答问题和回答长文本问题的能力**。这些改进使得模型更适用于广泛的应用场景，为用户提供了更准确、更深入的信息处理和生成能力。
 ## 模型下载与体验
 ### 下载地址
 - **TechGPT2-Atom** 使用Llama中文社区联合AtomEcho（原子回声）共同发布的Atom-7B-chat，并在此基础上进行全量微调后获得。
 - 此外，我们使用**QLora线性插值法**微调的长文本模型的Lora权重也已经发布在huggingface上，请自行下载合并。
+我们TechGPT-2的两个**7B**版本的模型、以及使用**QLora线性插值法**微调的长文本模型都已经在Hugging Face和GitHub上开源，后续在这些模型基础上的改进，也将开源到相同账号，欢迎大家使用并提出宝贵的意见。
 ### 模型体验
+我们目前对外提供 TechGPT-1.0 与 TechGPT2-Atom 版本的在线服务：http://techgpt.neukg.com/
+作为一个学术组织，我们无法长期提供模型的在线服务功能，当前的体验系统存在着随时下线的可能。因此建议大家后续通过开源权重自行体验，共同创建更好的中文大模型开源环境。
 ## 环境部署
 ### 在华为昇腾 910 NPU 服务器上的环境要求
 TechGPT-2.0 在保留了 TechGPT-1.0 模型的通用能力、实体识别能力以及三元组抽取能力的基础上，能够完成**更为复杂的嵌套实体识别**，并在**医学、法律领域**展现出优秀的能力，此外对**幻觉、不可回答问题以及长文本问题**有着较好的解决能力。
 下面展示了TechGPT-2.0 的几个新增能力的样例。
 1. **医学NER**
 <table>   <colgroup>     <col style="width:50%">     <col style="width:50%">   </colgroup>   <tr>     <td>问题</td>     <td>回复</td> </tr>
 <tr><td>这句话中是否有实体？如果有，请列举出来。<br/>依据主要病变部位分为下列数型：脊髓型最常见，为脊髓前角细胞受损所致，表现为分布不对称、不规则的弛缓性肌肉瘫痪，四肢多见，下肢尤甚。 </td>     <td>实体名:先天畸形, 实体类型:疾病<br/>实体名:发育障碍, 实体类型:临床表现<br/>实体名:上、下呼吸道梗阻, 实体类型:疾病<br/>实体名:膈疝, 实体类型:疾病<br/>实体名:肺部受压迫, 实体类型:临床表现<br/>实体名:肺, 实体类型:身体<br/>实体名:呼吸衰竭, 实体类型:疾病
 </td> </tr>
 </table>
+经过我们的微调，目前 TechGPT-2.0 对其不知道的问题会直接进行不可回答的回复，对与人类价值观相悖的问题会进行否定回答并给出合理建议。
 另外，还需注意，上述结果并非设置为相同的输出长度。在默认输出长度设置下，模型输出的结果偏保守，即很多正确的结果在强制大模型输出更长结果的条件下可以得到，但在默认输出长度设置条件下，这些正确的结果并没有被模型输出；有时也可能因为强制模型输出的长度过长，导致模型过分填充一些无用字符。
 ## 总结
+和 TechGPT-1.0 相比，**TechGPT-2.0** 在许多方面进行了改进，新模型具有更强的**知识图谱构建**能力、以及**智能问答**能力。尤其是在**嵌套NER**以及**医学、法律**领域能力的提升，并且模型对**幻觉等边界问题以及长文本问题**的回答也得到了改善。
 目前，我们对TechGPT的研究也在持续进行中，如外挂知识库、大模型与知识图谱融合、长文本问题优化等方向。