jiangchengchengNLP commited on
Commit
258eb82
·
verified ·
1 Parent(s): 44f6067

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +1 -1
README.md CHANGED
@@ -10,7 +10,7 @@ license: apache-2.0
10
 
11
  1. 原始简历文本的提取:通过段落和表格的方式从比赛提供的 word 文档中抽取文本,并去重。
12
  2. 标签数据的生成:递归提取需要的信息字段,设计相应类别标签,不额外设置 BIO 标签,前缀树搜索标注原始文本。
13
- 3. 数据合成:对训练数据进行人工合成,处理方法包括重抽样、随机抽样调整各类别数据占比,确保项目经历和项目职责类数据不超过总数的 12%,同时加入噪音数据,即完全与简历无关的无监督负样本,共形成3000 条数据。
14
 
15
  ## 模型架构
16
  底座模型采用 RoBERTa-base,由 Benjamin 提供的 `roberta-base-wechsel-chinese` 完成中文语义训练。
 
10
 
11
  1. 原始简历文本的提取:通过段落和表格的方式从比赛提供的 word 文档中抽取文本,并去重。
12
  2. 标签数据的生成:递归提取需要的信息字段,设计相应类别标签,不额外设置 BIO 标签,前缀树搜索标注原始文本。
13
+ 3. 数据合成:对训练数据进行人工合成,处理方法包括重抽样、随机抽样调整各类别数据占比,确保项目经历和项目职责类数据不超过总数的 12%,同时加入噪音数据,即完全与简历无关的负样本,共形成3000 条数据。
14
 
15
  ## 模型架构
16
  底座模型采用 RoBERTa-base,由 Benjamin 提供的 `roberta-base-wechsel-chinese` 完成中文语义训练。