neavo
/

keyword_gacha_multilingual_ner

Token Classification

Model card Files Files and versions Community

neavo commited on Sep 3, 2024

Commit

cd53437

·

verified ·

1 Parent(s): 738593f

Update README.md

Files changed (1) hide show

README.md +5 -5

README.md CHANGED Viewed

@@ -8,9 +8,9 @@ pipeline_tag: token-classification
 ### 前言
-- KeywordGacha Model 系列是一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列，该模型在最开始是为了 [KeywordGacha](https://github.com/neavo/KeywordGacha) 而创造的
 - [KeywordGacha](https://github.com/neavo/KeywordGacha) 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等任意文本中的词汇表的翻译辅助工具
-- 在 [KeywordGacha](https://github.com/neavo/KeywordGacha) 的开发过程中，我们发现市面上并没有满足需求的语言模型模型，所以自己动手创造了一个 ：）
 ### 综述
@@ -29,8 +29,8 @@ pipeline_tag: token-classification
 ### 基础模型 Base
-- 当前的基础模型是在 [xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练得到的
-- 在原始模型的基础上，针对每种语言使用了大约 100M Token 语料进行了 2 个 epoch 继续预训练
 - 总训练语料约 400M Tokens，总训练量约为 800M Tokens
 - 训练语料中包含 `Web 小说`、`文库本小说`、`AVG 游戏脚本`、`RPG 游戏脚本` 等不同种类的文本
 - 训练参数如下：
@@ -48,7 +48,7 @@ pipeline_tag: token-classification
 ### 实体识别模型 NER
 - 在 Base 模型的基础上，使用了大约 40000 条合成语料进行 NER 任务的微调
-- 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时，与人工校对的实体词语表进行对比，可以达到 `90%-95%` 的实际准确率
 - 训练参数如下：
   - Batch Size : 32
   - Gradient Accumulation Steps : 2

 ### 前言
+- 本系列是一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列，在最开始是为了 [KeywordGacha](https://github.com/neavo/KeywordGacha) 而创造的
 - [KeywordGacha](https://github.com/neavo/KeywordGacha) 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等任意文本中的词汇表的翻译辅助工具
+- 在 [KeywordGacha](https://github.com/neavo/KeywordGacha) 的开发过程中，我们发现社区中并没有满足需求的语言模型模型，所以自己动手创造了一个 ：）
 ### 综述
 ### 基础模型 Base
+- 当前的基础模型是在 [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练得到的
+- 针对每种语言使用了大约 100M Token 语料进行了 2 个 epoch 继续预训练
 - 总训练语料约 400M Tokens，总训练量约为 800M Tokens
 - 训练语料中包含 `Web 小说`、`文库本小说`、`AVG 游戏脚本`、`RPG 游戏脚本` 等不同种类的文本
 - 训练参数如下：
 ### 实体识别模型 NER
 - 在 Base 模型的基础上，使用了大约 40000 条合成语料进行 NER 任务的微调
+- 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时，与人工校对的实体词语表进行对比，可以达到 `90%-95%` 的实际准确率（并非 F1 Score 这种理论上的指标）
 - 训练参数如下：
   - Batch Size : 32
   - Gradient Accumulation Steps : 2