thehosy
/

vi-roberta-base-qa-embedding

@@ -17,8 +17,8 @@ This is a encoder model: It can encodes sentences or paragraphs (maximum 768 tok
 Datasets:
   - MS Macro (translated into Vietnamese)
   - SQuAD v2  (translated into Vietnamese)
-  - ViQuad2.0
-  - ZaloQA 2019
 Roberta-base architecture is used as backbone (Training from scratch).
@@ -43,7 +43,7 @@ sentences = ["Mỗi hiệp bóng đá kéo dài bao lâu",
   "Một trận đấu bóng đá thông thường có hai hiệp , mỗi hiệp 45 phút với khoảng thời gian 15 phút nghỉ giữa hai hiệp .",
   "Cũng trong thập niên 1850 , các đội bóng nghiệp dư bắt đầu được thành lập và thường mỗi đội xây dựng cho riêng họ những luật chơi mới của môn bóng đá , trong đó đáng chú ý có câu lạc bộ Sheffield F.C .. Việc mỗi đội bóng có luật chơi khác nhau khiến việc điều hành mỗi trận đấu giữa họ diễn ra rất khó khăn ."]
-model = SentenceTransformer('thehosy/roberta-base-qa-vietnamese')
 model.eval()
 embeddings = model.encode(sentences, convert_to_tensor=True)
@@ -76,8 +76,8 @@ sentences = ["Mỗi hiệp bóng đá kéo dài bao lâu",
   "Cũng trong thập niên 1850 , các đội bóng nghiệp dư bắt đầu được thành lập và thường mỗi đội xây dựng cho riêng họ những luật chơi mới của môn bóng đá , trong đó đáng chú ý có câu lạc bộ Sheffield F.C .. Việc mỗi đội bóng có luật chơi khác nhau khiến việc điều hành mỗi trận đấu giữa họ diễn ra rất khó khăn ."]
 # Load model from HuggingFace Hub
-tokenizer = AutoTokenizer.from_pretrained('thehosy/roberta-base-qa-vietnamese')
-model = AutoModel.from_pretrained('thehosy/roberta-base-qa-vietnamese')
 model.eval()
 # Tokenize sentences
@@ -96,19 +96,20 @@ print(sim_scores)
 ## Training
 The model was trained with the parameters:
 **DataLoader**:
-`torch.utils.data.dataloader.DataLoader` of length 683064 with parameters:
 ```json
-{'batch_size': 16, 'sampler': None, 'batch_sampler': None, 'shuffle': true}
 ```
 **Loss**:
-`contrastive loss` with `cosine distance` and `euclide distance`:
 **Training Parameters**
  - epochs: 6
@@ -118,6 +119,10 @@ The model was trained with the parameters:
  - warmup_steps: 10000
  - weight_decay": 0.001
 ## Full Model Architecture

 Datasets:
   - MS Macro (translated into Vietnamese)
   - SQuAD v2  (translated into Vietnamese)
+  - UIT ViQuad2.0
+  - ZaloQA 2021
 Roberta-base architecture is used as backbone (Training from scratch).
   "Một trận đấu bóng đá thông thường có hai hiệp , mỗi hiệp 45 phút với khoảng thời gian 15 phút nghỉ giữa hai hiệp .",
   "Cũng trong thập niên 1850 , các đội bóng nghiệp dư bắt đầu được thành lập và thường mỗi đội xây dựng cho riêng họ những luật chơi mới của môn bóng đá , trong đó đáng chú ý có câu lạc bộ Sheffield F.C .. Việc mỗi đội bóng có luật chơi khác nhau khiến việc điều hành mỗi trận đấu giữa họ diễn ra rất khó khăn ."]
+model = SentenceTransformer('thehosy/vi-roberta-base-qa-embedding')
 model.eval()
 embeddings = model.encode(sentences, convert_to_tensor=True)
   "Cũng trong thập niên 1850 , các đội bóng nghiệp dư bắt đầu được thành lập và thường mỗi đội xây dựng cho riêng họ những luật chơi mới của môn bóng đá , trong đó đáng chú ý có câu lạc bộ Sheffield F.C .. Việc mỗi đội bóng có luật chơi khác nhau khiến việc điều hành mỗi trận đấu giữa họ diễn ra rất khó khăn ."]
 # Load model from HuggingFace Hub
+tokenizer = AutoTokenizer.from_pretrained('thehosy/vi-roberta-base-qa-embedding')
+model = AutoModel.from_pretrained('thehosy/vi-roberta-base-qa-embedding')
 model.eval()
 # Tokenize sentences
 ## Training
+### Pretraining
 The model was trained with the parameters:
 **DataLoader**:
+MSMACRO: `torch.utils.data.dataloader.DataLoader` of length 2621440 with parameters:
 ```json
+{'batch_size': 32, 'sampler': None, 'batch_sampler': None, 'shuffle': true}
 ```
 **Loss**:
+`Triplet loss`
 **Training Parameters**
  - epochs: 6
  - warmup_steps: 10000
  - weight_decay": 0.001
+### Finetuning
 ## Full Model Architecture