Training in progress, epoch 1

Browse files

Files changed (5) hide show

README.md +3 -3
adapter_config.json +9 -4
adapter_model.safetensors +2 -2
runs/Aug18_00-40-41_gemma3-n1s8-t4-test.us-central1-b.c.sayouzone-ai.internal/events.out.tfevents.1755477651.gemma3-n1s8-t4-test.us-central1-b.c.sayouzone-ai.internal.1787.0 +3 -0
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -34,10 +34,10 @@ This model was trained with SFT.
 ### Framework versions
-- TRL: 0.15.2
 - Transformers: 4.55.2
 - Pytorch: 2.8.0
-- Datasets: 3.3.2
 - Tokenizers: 0.21.4
 ## Citations
@@ -49,7 +49,7 @@ Cite TRL as:
 ```bibtex
 @misc{vonwerra2022trl,
 	title        = {{TRL: Transformer Reinforcement Learning}},
-	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
 	year         = 2020,
 	journal      = {GitHub repository},
 	publisher    = {GitHub},

 ### Framework versions
+- TRL: 0.21.0
 - Transformers: 4.55.2
 - Pytorch: 2.8.0
+- Datasets: 4.0.0
 - Tokenizers: 0.21.4
 ## Citations
 ```bibtex
 @misc{vonwerra2022trl,
 	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
 	year         = 2020,
 	journal      = {GitHub repository},
 	publisher    = {GitHub},

adapter_config.json CHANGED Viewed

@@ -3,6 +3,7 @@
   "auto_mapping": null,
   "base_model_name_or_path": "google/gemma-3-1b-pt",
   "bias": "none",
   "eva_config": null,
   "exclude_modules": null,
   "fan_in_fan_out": false,
@@ -22,19 +23,23 @@
     "embed_tokens"
   ],
   "peft_type": "LORA",
   "r": 16,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "down_proj",
     "k_proj",
-    "o_proj",
     "up_proj",
     "gate_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,
   "use_rslora": false
 }

   "auto_mapping": null,
   "base_model_name_or_path": "google/gemma-3-1b-pt",
   "bias": "none",
+  "corda_config": null,
   "eva_config": null,
   "exclude_modules": null,
   "fan_in_fan_out": false,
     "embed_tokens"
   ],
   "peft_type": "LORA",
+  "qalora_group_size": 16,
   "r": 16,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
+    "q_proj",
     "up_proj",
+    "o_proj",
+    "v_proj",
     "gate_proj",
+    "down_proj"
   ],
+  "target_parameters": null,
   "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
   "use_dora": false,
+  "use_qalora": false,
   "use_rslora": false
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f1ff5ce420a89ab8b4ef7046ba77ae67d3dfa95a3d3a2d9693e72dad98c2436
-size 1260191096

 version https://git-lfs.github.com/spec/v1
+oid sha256:12d2c82b0c01cdedb9eddc8d8211fed4114e8b51127e3f3196ae33c67da0f247
+size 2468152240

runs/Aug18_00-40-41_gemma3-n1s8-t4-test.us-central1-b.c.sayouzone-ai.internal/events.out.tfevents.1755477651.gemma3-n1s8-t4-test.us-central1-b.c.sayouzone-ai.internal.1787.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22f9844785e3e3ce15bf67f85f7a60ee76a4789fbfaee562f619bf339d24d0aa
+size 89337

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0dafb40541f3fc8eaedf077e4207fa71556b83d32c4968c44105f27c5a76e483
-size 6097

 version https://git-lfs.github.com/spec/v1
+oid sha256:56782f6163d04e4eaa9f9866fc9610f04ad1feab93bbbbb99d58e0ba037606d4
+size 6225