dragonSwing commited on
Commit
d8fc81f
1 Parent(s): ecdcd80
Files changed (4) hide show
  1. README.md +2 -1
  2. gec_model.py +4 -4
  3. utils.py +1 -1
  4. verb-form-vocab.txt +0 -0
README.md CHANGED
@@ -58,7 +58,8 @@ model = GecBERTModel(
58
  split_chunk=True
59
  )
60
  model("theo đó thủ tướng dự kiến tiếp bộ trưởng nông nghiệp mỹ tom wilsack bộ trưởng thương mại mỹ gina raimondo bộ trưởng tài chính janet yellen gặp gỡ thượng nghị sĩ patrick leahy và một số nghị sĩ mỹ khác")
61
- # Theo đó, Thủ tướng dự kiến tiếp Bộ trưởng Nông nghiệp Mỹ Tom Wilsack, Bộ trưởng Thương mại Mỹ Gina Raimondo, Bộ trưởng Tài chính Janet Yellen, gặp gỡ thượng nghị sĩ Patrick Leahy và một số nghị sĩ Mỹ khác.
 
62
  ```
63
  **This model can work on arbitrarily large text in Vietnamese language.**
64
 
 
58
  split_chunk=True
59
  )
60
  model("theo đó thủ tướng dự kiến tiếp bộ trưởng nông nghiệp mỹ tom wilsack bộ trưởng thương mại mỹ gina raimondo bộ trưởng tài chính janet yellen gặp gỡ thượng nghị sĩ patrick leahy và một số nghị sĩ mỹ khác")
61
+ # Always return list of outputs.
62
+ # ['Theo đó, Thủ tướng dự kiến tiếp Bộ trưởng Nông nghiệp Mỹ Tom Wilsack, Bộ trưởng Thương mại Mỹ Gina Raimondo, Bộ trưởng Tài chính Janet Yellen, gặp gỡ Thượng nghị sĩ Patrick Leahy và một số nghị sĩ Mỹ khác.']
63
  ```
64
  **This model can work on arbitrarily large text in Vietnamese language.**
65
 
gec_model.py CHANGED
@@ -9,9 +9,9 @@ import warnings
9
 
10
  import torch
11
  from transformers import AutoTokenizer
12
- from .modeling_seq2labels import Seq2LabelsModel
13
- from .vocabulary import Vocabulary
14
- from .utils import PAD, UNK, START_TOKEN, get_target_sent_by_edits
15
 
16
  logging.getLogger("werkzeug").setLevel(logging.ERROR)
17
  logger = logging.getLogger(__file__)
@@ -440,4 +440,4 @@ class GecBERTModel(torch.nn.Module):
440
  if merge_punc:
441
  final_batch = [re.sub(r'\s+(%s)' % self.punc_str, r'\1', x) for x in final_batch]
442
 
443
- return final_batch, total_updates
 
9
 
10
  import torch
11
  from transformers import AutoTokenizer
12
+ from modeling_seq2labels import Seq2LabelsModel
13
+ from vocabulary import Vocabulary
14
+ from utils import PAD, UNK, START_TOKEN, get_target_sent_by_edits
15
 
16
  logging.getLogger("werkzeug").setLevel(logging.ERROR)
17
  logger = logging.getLogger(__file__)
 
440
  if merge_punc:
441
  final_batch = [re.sub(r'\s+(%s)' % self.punc_str, r'\1', x) for x in final_batch]
442
 
443
+ return final_batch
utils.py CHANGED
@@ -3,7 +3,7 @@ from pathlib import Path
3
  import re
4
 
5
 
6
- VOCAB_DIR = Path(__file__).resolve().parent.parent / "data"
7
  PAD = "@@PADDING@@"
8
  UNK = "@@UNKNOWN@@"
9
  START_TOKEN = "$START"
 
3
  import re
4
 
5
 
6
+ VOCAB_DIR = Path(__file__).resolve().parent
7
  PAD = "@@PADDING@@"
8
  UNK = "@@UNKNOWN@@"
9
  START_TOKEN = "$START"
verb-form-vocab.txt ADDED
The diff for this file is too large to render. See raw diff