neavo commited on
Commit
cd53437
·
verified ·
1 Parent(s): 738593f

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +5 -5
README.md CHANGED
@@ -8,9 +8,9 @@ pipeline_tag: token-classification
8
 
9
  ### 前言
10
 
11
- - KeywordGacha Model 系列是一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列,该模型在最开始是为了 [KeywordGacha](https://github.com/neavo/KeywordGacha) 而创造的
12
  - [KeywordGacha](https://github.com/neavo/KeywordGacha) 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等任意文本中的词汇表的翻译辅助工具
13
- - 在 [KeywordGacha](https://github.com/neavo/KeywordGacha) 的开发过程中,我们发现市面上并没有满足需求的语言模型模型,所以自己动手创造了一个 :)
14
 
15
  ### 综述
16
 
@@ -29,8 +29,8 @@ pipeline_tag: token-classification
29
 
30
  ### 基础模型 Base
31
 
32
- - 当前的基础模型是在 [xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练得到的
33
- - 在原始模型的基础上,针对每种语言使用了大约 100M Token 语料进行了 2 个 epoch 继续预训练
34
  - 总训练语料约 400M Tokens,总训练量约为 800M Tokens
35
  - 训练语料中包含 `Web 小说`、`文库本小说`、`AVG 游戏脚本`、`RPG 游戏脚本` 等不同种类的文本
36
  - 训练参数如下:
@@ -48,7 +48,7 @@ pipeline_tag: token-classification
48
  ### 实体识别模型 NER
49
 
50
  - 在 Base 模型的基础上,使用了大约 40000 条合成语料进行 NER 任务的微调
51
- - 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时,与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率
52
  - 训练参数如下:
53
  - Batch Size : 32
54
  - Gradient Accumulation Steps : 2
 
8
 
9
  ### 前言
10
 
11
+ - 本系列是一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列,在最开始是为了 [KeywordGacha](https://github.com/neavo/KeywordGacha) 而创造的
12
  - [KeywordGacha](https://github.com/neavo/KeywordGacha) 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等任意文本中的词汇表的翻译辅助工具
13
+ - 在 [KeywordGacha](https://github.com/neavo/KeywordGacha) 的开发过程中,我们发现社区中并没有满足需求的语言模型模型,所以自己动手创造了一个 :)
14
 
15
  ### 综述
16
 
 
29
 
30
  ### 基础模型 Base
31
 
32
+ - 当前的基础模型是在 [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练得到的
33
+ - 针对每种语言使用了大约 100M Token 语料进行了 2 个 epoch 继续预训练
34
  - 总训练语料约 400M Tokens,总训练量约为 800M Tokens
35
  - 训练语料中包含 `Web 小说`、`文库本小说`、`AVG 游戏脚本`、`RPG 游戏脚本` 等不同种类的文本
36
  - 训练参数如下:
 
48
  ### 实体识别模型 NER
49
 
50
  - 在 Base 模型的基础上,使用了大约 40000 条合成语料进行 NER 任务的微调
51
+ - 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时,与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率(并非 F1 Score 这种理论上的指标)
52
  - 训练参数如下:
53
  - Batch Size : 32
54
  - Gradient Accumulation Steps : 2