FutureMiracle
commited on
Commit
•
a4eb16c
1
Parent(s):
372125e
update code
Browse files
README.md
CHANGED
@@ -12,11 +12,29 @@ tags:
|
|
12 |
# 中文语法纠错任务介绍
|
13 |
Task:中文语法纠错任务(Chinese Grammatical Error Correction,CGEC)
|
14 |
CGEC任务输入一句中文文本,文本纠错技术对句子中存在拼写、语法、语义等错误进行自动纠正,输出纠正后的文本。
|
15 |
-
|
16 |
# 中文语法纠错方法
|
17 |
主流的方法为seq2seq和seq2edits,常用的中文纠错数据集包括Lang8、NLPCC18和CGED等。
|
18 |
-
|
19 |
# 模型描述
|
20 |
我们采用基于transformer的seq2seq方法建模文本纠错任务。模型选择上,我们使用中文BART作为预训练模型,然后在Lang8和CGED训练数据上进行finetune。
|
21 |
在不引入额外资源的情况下,本模型在LANG8测试集上达到了SOTA。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
22 |
|
|
|
12 |
# 中文语法纠错任务介绍
|
13 |
Task:中文语法纠错任务(Chinese Grammatical Error Correction,CGEC)
|
14 |
CGEC任务输入一句中文文本,文本纠错技术对句子中存在拼写、语法、语义等错误进行自动纠正,输出纠正后的文本。
|
|
|
15 |
# 中文语法纠错方法
|
16 |
主流的方法为seq2seq和seq2edits,常用的中文纠错数据集包括Lang8、NLPCC18和CGED等。
|
|
|
17 |
# 模型描述
|
18 |
我们采用基于transformer的seq2seq方法建模文本纠错任务。模型选择上,我们使用中文BART作为预训练模型,然后在Lang8和CGED训练数据上进行finetune。
|
19 |
在不引入额外资源的情况下,本模型在LANG8测试集上达到了SOTA。
|
20 |
+
# 模型训练
|
21 |
+
模型训练是基于fairseq库进行训练的。
|
22 |
+
# 如何使用
|
23 |
+
step1: 下载fairseq库,并进行安装
|
24 |
+
step2: 使用interactive.py方法进行推理
|
25 |
+
python -u ${FAIRSEQ_DIR}/interactive.py $PROCESSED_DIR \
|
26 |
+
--task syntax-enhanced-translation \
|
27 |
+
--path ${MODEL_PATH} \
|
28 |
+
--beam ${BEAM} \
|
29 |
+
--nbest ${N_BEST} \
|
30 |
+
-s src \
|
31 |
+
-t tgt \
|
32 |
+
--buffer-size 1000 \
|
33 |
+
--batch-size 32 \
|
34 |
+
--num-workers 12 \
|
35 |
+
--log-format tqdm \
|
36 |
+
--remove-bpe \
|
37 |
+
--fp16 \
|
38 |
+
--output_file $OUTPUT_DIR/output.nbest \
|
39 |
+
<$OUTPUT_DIR/lang8_test.char
|
40 |
|