End of training

Files changed (5) hide show

README.md CHANGED Viewed

@@ -4,9 +4,6 @@ tags:
 model-index:
 - name: UrduBert
   results: []
-inference: false
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -33,20 +30,21 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.001
-- train_batch_size: 72
-- eval_batch_size: 16
 - seed: 42
-- gradient_accumulation_steps: 56
-- total_train_batch_size: 4032
-- optimizer: Adam with betas=(0.9,0.98) and epsilon=1e-09
 - lr_scheduler_type: linear
-- lr_scheduler_warmup_ratio: 0.5
 - num_epochs: 1
 ### Framework versions
-- Transformers 4.33.0
-- Pytorch 2.0.0
-- Datasets 2.1.0
-- Tokenizers 0.13.3

 model-index:
 - name: UrduBert
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 64
+- eval_batch_size: 8
 - seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - num_epochs: 1
+### Training results
 ### Framework versions
+- Transformers 4.35.2
+- Pytorch 2.1.0+cu118
+- Datasets 2.15.0
+- Tokenizers 0.15.0

config.json CHANGED Viewed

@@ -1,24 +1,26 @@
 {
   "architectures": [
-    "BertForMaskedLM"
   ],
-  "attention_probs_dropout_prob": 0,
   "classifier_dropout": null,
   "hidden_act": "gelu",
-  "hidden_dropout_prob": 0,
   "hidden_size": 768,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "layer_norm_eps": 1e-12,
-  "max_position_embeddings": 128,
-  "model_type": "bert",
   "num_attention_heads": 12,
-  "num_hidden_layers": 12,
-  "pad_token_id": 0,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
-  "transformers_version": "4.33.0",
-  "type_vocab_size": 2,
   "use_cache": true,
-  "vocab_size": 32768
 }

 {
   "architectures": [
+    "RobertaForMaskedLM"
   ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
   "classifier_dropout": null,
+  "eos_token_id": 2,
   "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
   "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 1,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "type_vocab_size": 1,
   "use_cache": true,
+  "vocab_size": 52000
 }

model.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:c481934b104d13f5f3486df15e39ec6732512db63838b089ac8e78c0e4268df9
+size 334030264

runs/Nov26_18-41-28_8dcbbf658321/events.out.tfevents.1701024096.8dcbbf658321.377.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:2622d176df874fc31d8dc038813c9a2d6baa015eb5d7962983723333305146e8
+size 5874

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3efa374828c8d7ed9d214dc58b3b1a646022db50c8cccc67415567846e22b9e2
-size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:afe7dceb16223304c7be38604b6e960c6365ffa3a4a9c6c936718849eb776605
+size 4536