jiangchengchengNLP
commited on
Update README.md
Browse files
README.md
CHANGED
@@ -10,7 +10,7 @@ license: apache-2.0
|
|
10 |
|
11 |
1. 原始简历文本的提取:通过段落和表格的方式从比赛提供的 word 文档中抽取文本,并去重。
|
12 |
2. 标签数据的生成:递归提取需要的信息字段,设计相应类别标签,不额外设置 BIO 标签,前缀树搜索标注原始文本。
|
13 |
-
3. 数据合成:对训练数据进行人工合成,处理方法包括重抽样、随机抽样调整各类别数据占比,确保项目经历和项目职责类数据不超过总数的 12
|
14 |
|
15 |
## 模型架构
|
16 |
底座模型采用 RoBERTa-base,由 Benjamin 提供的 `roberta-base-wechsel-chinese` 完成中文语义训练。
|
|
|
10 |
|
11 |
1. 原始简历文本的提取:通过段落和表格的方式从比赛提供的 word 文档中抽取文本,并去重。
|
12 |
2. 标签数据的生成:递归提取需要的信息字段,设计相应类别标签,不额外设置 BIO 标签,前缀树搜索标注原始文本。
|
13 |
+
3. 数据合成:对训练数据进行人工合成,处理方法包括重抽样、随机抽样调整各类别数据占比,确保项目经历和项目职责类数据不超过总数的 12%,同时加入噪音数据,即完全与简历无关的负样本,共形成3000 条数据。
|
14 |
|
15 |
## 模型架构
|
16 |
底座模型采用 RoBERTa-base,由 Benjamin 提供的 `roberta-base-wechsel-chinese` 完成中文语义训练。
|