thehosy commited on
Commit
c4943a7
1 Parent(s): cdce114

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +13 -8
README.md CHANGED
@@ -17,8 +17,8 @@ This is a encoder model: It can encodes sentences or paragraphs (maximum 768 tok
17
  Datasets:
18
  - MS Macro (translated into Vietnamese)
19
  - SQuAD v2 (translated into Vietnamese)
20
- - ViQuad2.0
21
- - ZaloQA 2019
22
 
23
  Roberta-base architecture is used as backbone (Training from scratch).
24
 
@@ -43,7 +43,7 @@ sentences = ["Mỗi hiệp bóng đá kéo dài bao lâu",
43
  "Một trận đấu bóng đá thông thường có hai hiệp , mỗi hiệp 45 phút với khoảng thời gian 15 phút nghỉ giữa hai hiệp .",
44
  "Cũng trong thập niên 1850 , các đội bóng nghiệp dư bắt đầu được thành lập và thường mỗi đội xây dựng cho riêng họ những luật chơi mới của môn bóng đá , trong đó đáng chú ý có câu lạc bộ Sheffield F.C .. Việc mỗi đội bóng có luật chơi khác nhau khiến việc điều hành mỗi trận đấu giữa họ diễn ra rất khó khăn ."]
45
 
46
- model = SentenceTransformer('thehosy/roberta-base-qa-vietnamese')
47
  model.eval()
48
 
49
  embeddings = model.encode(sentences, convert_to_tensor=True)
@@ -76,8 +76,8 @@ sentences = ["Mỗi hiệp bóng đá kéo dài bao lâu",
76
  "Cũng trong thập niên 1850 , các đội bóng nghiệp dư bắt đầu được thành lập và thường mỗi đội xây dựng cho riêng họ những luật chơi mới của môn bóng đá , trong đó đáng chú ý có câu lạc bộ Sheffield F.C .. Việc mỗi đội bóng có luật chơi khác nhau khiến việc điều hành mỗi trận đấu giữa họ diễn ra rất khó khăn ."]
77
 
78
  # Load model from HuggingFace Hub
79
- tokenizer = AutoTokenizer.from_pretrained('thehosy/roberta-base-qa-vietnamese')
80
- model = AutoModel.from_pretrained('thehosy/roberta-base-qa-vietnamese')
81
  model.eval()
82
 
83
  # Tokenize sentences
@@ -96,19 +96,20 @@ print(sim_scores)
96
 
97
  ## Training
98
 
 
99
  The model was trained with the parameters:
100
 
101
  **DataLoader**:
102
 
103
- `torch.utils.data.dataloader.DataLoader` of length 683064 with parameters:
104
 
105
  ```json
106
- {'batch_size': 16, 'sampler': None, 'batch_sampler': None, 'shuffle': true}
107
  ```
108
 
109
  **Loss**:
110
 
111
- `contrastive loss` with `cosine distance` and `euclide distance`:
112
 
113
  **Training Parameters**
114
  - epochs: 6
@@ -118,6 +119,10 @@ The model was trained with the parameters:
118
  - warmup_steps: 10000
119
  - weight_decay": 0.001
120
 
 
 
 
 
121
 
122
  ## Full Model Architecture
123
 
 
17
  Datasets:
18
  - MS Macro (translated into Vietnamese)
19
  - SQuAD v2 (translated into Vietnamese)
20
+ - UIT ViQuad2.0
21
+ - ZaloQA 2021
22
 
23
  Roberta-base architecture is used as backbone (Training from scratch).
24
 
 
43
  "Một trận đấu bóng đá thông thường có hai hiệp , mỗi hiệp 45 phút với khoảng thời gian 15 phút nghỉ giữa hai hiệp .",
44
  "Cũng trong thập niên 1850 , các đội bóng nghiệp dư bắt đầu được thành lập và thường mỗi đội xây dựng cho riêng họ những luật chơi mới của môn bóng đá , trong đó đáng chú ý có câu lạc bộ Sheffield F.C .. Việc mỗi đội bóng có luật chơi khác nhau khiến việc điều hành mỗi trận đấu giữa họ diễn ra rất khó khăn ."]
45
 
46
+ model = SentenceTransformer('thehosy/vi-roberta-base-qa-embedding')
47
  model.eval()
48
 
49
  embeddings = model.encode(sentences, convert_to_tensor=True)
 
76
  "Cũng trong thập niên 1850 , các đội bóng nghiệp dư bắt đầu được thành lập và thường mỗi đội xây dựng cho riêng họ những luật chơi mới của môn bóng đá , trong đó đáng chú ý có câu lạc bộ Sheffield F.C .. Việc mỗi đội bóng có luật chơi khác nhau khiến việc điều hành mỗi trận đấu giữa họ diễn ra rất khó khăn ."]
77
 
78
  # Load model from HuggingFace Hub
79
+ tokenizer = AutoTokenizer.from_pretrained('thehosy/vi-roberta-base-qa-embedding')
80
+ model = AutoModel.from_pretrained('thehosy/vi-roberta-base-qa-embedding')
81
  model.eval()
82
 
83
  # Tokenize sentences
 
96
 
97
  ## Training
98
 
99
+ ### Pretraining
100
  The model was trained with the parameters:
101
 
102
  **DataLoader**:
103
 
104
+ MSMACRO: `torch.utils.data.dataloader.DataLoader` of length 2621440 with parameters:
105
 
106
  ```json
107
+ {'batch_size': 32, 'sampler': None, 'batch_sampler': None, 'shuffle': true}
108
  ```
109
 
110
  **Loss**:
111
 
112
+ `Triplet loss`
113
 
114
  **Training Parameters**
115
  - epochs: 6
 
119
  - warmup_steps: 10000
120
  - weight_decay": 0.001
121
 
122
+ ### Finetuning
123
+
124
+
125
+
126
 
127
  ## Full Model Architecture
128