Add new SentenceTransformer model.

Files changed (5) hide show

README.md CHANGED Viewed

@@ -27,7 +27,7 @@ Then you can use the model like this:
 ```python
 from sentence_transformers import SentenceTransformer
-sentences = ["আমি ভাত খাই", "আকাশ নীল", "বাংলাদেশের রাজধানীর নাম ঢাকা."]
 model = SentenceTransformer('Mahedi420/Bangla-bert-improved-version')
 embeddings = model.encode(sentences)
@@ -52,7 +52,7 @@ def mean_pooling(model_output, attention_mask):
 # Sentences we want sentence embeddings for
-sentences = ["আমি ভাত খাই", "আকাশ নীল", "বাংলাদেশের রাজধানীর নাম ঢাকা."]
 # Load model from HuggingFace Hub
 tokenizer = AutoTokenizer.from_pretrained('Mahedi420/Bangla-bert-improved-version')
@@ -86,9 +86,9 @@ The model was trained with the parameters:
 **DataLoader**:
-`torch.utils.data.dataloader.DataLoader` of length 5126 with parameters:
 ```
-{'batch_size': 4, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}
 ```
 **Loss**:
@@ -101,7 +101,7 @@ The model was trained with the parameters:
 Parameters of the fit()-Method:
 ```
 {
-    "epochs": 30,
     "evaluation_steps": 0,
     "evaluator": "NoneType",
     "max_grad_norm": 1,

 ```python
 from sentence_transformers import SentenceTransformer
+sentences = ["This is an example sentence", "Each sentence is converted"]
 model = SentenceTransformer('Mahedi420/Bangla-bert-improved-version')
 embeddings = model.encode(sentences)
 # Sentences we want sentence embeddings for
+sentences = ['This is an example sentence', 'Each sentence is converted']
 # Load model from HuggingFace Hub
 tokenizer = AutoTokenizer.from_pretrained('Mahedi420/Bangla-bert-improved-version')
 **DataLoader**:
+`torch.utils.data.dataloader.DataLoader` of length 912 with parameters:
 ```
+{'batch_size': 16, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}
 ```
 **Loss**:
 Parameters of the fit()-Method:
 ```
 {
+    "epochs": 50,
     "evaluation_steps": 0,
     "evaluator": "NoneType",
     "max_grad_norm": 1,

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "sagorsarker/bangla-bert-base",
   "architectures": [
     "BertModel"
   ],

 {
+  "_name_or_path": "mahedi420/Bangla-bert-improved-version",
   "architectures": [
     "BertModel"
   ],

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1d84c9a89d767fd8b7ef77f92508febf1fcb40e95f0555a213dff9599f9d749
 size 657608552

 version https://git-lfs.github.com/spec/v1
+oid sha256:421628137f1c45d1cc02eb7b80aaeecd4d61f71bb01b963f988b009d9a3d7d09
 size 657608552

special_tokens_map.json CHANGED Viewed

@@ -1,7 +1,37 @@
 {
-  "cls_token": "[CLS]",
-  "mask_token": "[MASK]",
-  "pad_token": "[PAD]",
-  "sep_token": "[SEP]",
-  "unk_token": "[UNK]"
 }

 {
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
 }

tokenizer_config.json CHANGED Viewed

@@ -46,12 +46,19 @@
   "do_basic_tokenize": true,
   "do_lower_case": true,
   "mask_token": "[MASK]",
   "model_max_length": 1000000000000000019884624838656,
   "never_split": null,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
   "strip_accents": null,
   "tokenize_chinese_chars": true,
   "tokenizer_class": "BertTokenizer",
   "unk_token": "[UNK]"
 }

   "do_basic_tokenize": true,
   "do_lower_case": true,
   "mask_token": "[MASK]",
+  "max_length": 512,
   "model_max_length": 1000000000000000019884624838656,
   "never_split": null,
+  "pad_to_multiple_of": null,
   "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
   "sep_token": "[SEP]",
+  "stride": 0,
   "strip_accents": null,
   "tokenize_chinese_chars": true,
   "tokenizer_class": "BertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
   "unk_token": "[UNK]"
 }