jiangchengchengNLP
/

Chinese_resume_extract

Model card Files Files and versions Community

jiangchengchengNLP commited on Nov 5, 2024

Commit

258eb82

·

verified ·

1 Parent(s): 44f6067

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -10,7 +10,7 @@ license: apache-2.0
 1. 原始简历文本的提取：通过段落和表格的方式从比赛提供的 word 文档中抽取文本，并去重。
 2. 标签数据的生成：递归提取需要的信息字段，设计相应类别标签，不额外设置 BIO 标签，前缀树搜索标注原始文本。
-3. 数据合成：对训练数据进行人工合成，处理方法包括重抽样、随机抽样调整各类别数据占比，确保项目经历和项目职责类数据不超过总数的 12%，同时加入噪音数据，即完全与简历无关的无监督负样本，共形成3000 条数据。
 ## 模型架构
 底座模型采用 RoBERTa-base，由 Benjamin 提供的 `roberta-base-wechsel-chinese` 完成中文语义训练。

 1. 原始简历文本的提取：通过段落和表格的方式从比赛提供的 word 文档中抽取文本，并去重。
 2. 标签数据的生成：递归提取需要的信息字段，设计相应类别标签，不额外设置 BIO 标签，前缀树搜索标注原始文本。
+3. 数据合成：对训练数据进行人工合成，处理方法包括重抽样、随机抽样调整各类别数据占比，确保项目经历和项目职责类数据不超过总数的 12%，同时加入噪音数据，即完全与简历无关的负样本，共形成3000 条数据。
 ## 模型架构
 底座模型采用 RoBERTa-base，由 Benjamin 提供的 `roberta-base-wechsel-chinese` 完成中文语义训练。