FutureMiracle commited on
Commit
a4eb16c
1 Parent(s): 372125e

update code

Browse files
Files changed (1) hide show
  1. README.md +20 -2
README.md CHANGED
@@ -12,11 +12,29 @@ tags:
12
  # 中文语法纠错任务介绍
13
  Task:中文语法纠错任务(Chinese Grammatical Error Correction,CGEC)
14
  CGEC任务输入一句中文文本,文本纠错技术对句子中存在拼写、语法、语义等错误进行自动纠正,输出纠正后的文本。
15
-
16
  # 中文语法纠错方法
17
  主流的方法为seq2seq和seq2edits,常用的中文纠错数据集包括Lang8、NLPCC18和CGED等。
18
-
19
  # 模型描述
20
  我们采用基于transformer的seq2seq方法建模文本纠错任务。模型选择上,我们使用中文BART作为预训练模型,然后在Lang8和CGED训练数据上进行finetune。
21
  在不引入额外资源的情况下,本模型在LANG8测试集上达到了SOTA。
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
22
 
 
12
  # 中文语法纠错任务介绍
13
  Task:中文语法纠错任务(Chinese Grammatical Error Correction,CGEC)
14
  CGEC任务输入一句中文文本,文本纠错技术对句子中存在拼写、语法、语义等错误进行自动纠正,输出纠正后的文本。
 
15
  # 中文语法纠错方法
16
  主流的方法为seq2seq和seq2edits,常用的中文纠错数据集包括Lang8、NLPCC18和CGED等。
 
17
  # 模型描述
18
  我们采用基于transformer的seq2seq方法建模文本纠错任务。模型选择上,我们使用中文BART作为预训练模型,然后在Lang8和CGED训练数据上进行finetune。
19
  在不引入额外资源的情况下,本模型在LANG8测试集上达到了SOTA。
20
+ # 模型训练
21
+ 模型训练是基于fairseq库进行训练的。
22
+ # 如何使用
23
+ step1: 下载fairseq库,并进行安装
24
+ step2: 使用interactive.py方法进行推理
25
+ python -u ${FAIRSEQ_DIR}/interactive.py $PROCESSED_DIR \
26
+ --task syntax-enhanced-translation \
27
+ --path ${MODEL_PATH} \
28
+ --beam ${BEAM} \
29
+ --nbest ${N_BEST} \
30
+ -s src \
31
+ -t tgt \
32
+ --buffer-size 1000 \
33
+ --batch-size 32 \
34
+ --num-workers 12 \
35
+ --log-format tqdm \
36
+ --remove-bpe \
37
+ --fp16 \
38
+ --output_file $OUTPUT_DIR/output.nbest \
39
+ <$OUTPUT_DIR/lang8_test.char
40