datasysdev commited on Sep 13, 2025

Commit

e1f7df0

verified ·

1 Parent(s): 2070efb

Training in progress, epoch 5

Browse files

Files changed (22) hide show

.gitattributes +1 -0
README.md +58 -0
added_tokens.json +3 -0
chat_template.jinja +47 -0
config.json +54 -0
model.safetensors +3 -0
runs/Sep13_19-01-48_959205344c76/events.out.tfevents.1757790119.959205344c76.1552.0 +3 -0
runs/Sep13_19-14-02_4a44d92d347d/events.out.tfevents.1757790862.4a44d92d347d.203.0 +3 -0
runs/Sep13_19-19-32_4a44d92d347d/events.out.tfevents.1757791182.4a44d92d347d.203.1 +3 -0
runs/Sep13_19-20-38_4a44d92d347d/events.out.tfevents.1757791244.4a44d92d347d.203.2 +3 -0
runs/Sep13_19-22-06_4a44d92d347d/events.out.tfevents.1757791329.4a44d92d347d.203.3 +3 -0
runs/Sep13_19-35-52_a572dfad7f82/events.out.tfevents.1757792167.a572dfad7f82.1820.0 +3 -0
runs/Sep13_19-36-44_a572dfad7f82/events.out.tfevents.1757792210.a572dfad7f82.1820.1 +3 -0
runs/Sep13_19-39-12_a572dfad7f82/events.out.tfevents.1757792356.a572dfad7f82.1820.2 +3 -0
runs/Sep13_19-41-07_a572dfad7f82/events.out.tfevents.1757792475.a572dfad7f82.1820.3 +3 -0
runs/Sep13_19-42-59_a572dfad7f82/events.out.tfevents.1757792585.a572dfad7f82.1820.4 +3 -0
runs/Sep13_19-51-28_6a75134f9ac0/events.out.tfevents.1757793101.6a75134f9ac0.244.0 +3 -0
special_tokens_map.json +33 -0
tokenizer.json +3 -0
tokenizer.model +3 -0
tokenizer_config.json +0 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,58 @@

+---
+base_model: google/gemma-3-270m-it
+library_name: transformers
+model_name: Code1
+tags:
+- generated_from_trainer
+- trl
+- sft
+licence: license
+---
+# Model Card for Code1
+This model is a fine-tuned version of [google/gemma-3-270m-it](https://huggingface.co/google/gemma-3-270m-it).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="datasysdev/Code1", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+This model was trained with SFT.
+### Framework versions
+- TRL: 0.23.0
+- Transformers: 4.56.1
+- Pytorch: 2.8.0+cu126
+- Datasets: 4.0.0
+- Tokenizers: 0.22.0
+## Citations
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,47 @@

+{{ bos_token }}
+{%- if messages[0]['role'] == 'system' -%}
+    {%- if messages[0]['content'] is string -%}
+        {%- set first_user_prefix = messages[0]['content'] + '
+' -%}
+    {%- else -%}
+        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
+' -%}
+    {%- endif -%}
+    {%- set loop_messages = messages[1:] -%}
+{%- else -%}
+    {%- set first_user_prefix = "" -%}
+    {%- set loop_messages = messages -%}
+{%- endif -%}
+{%- for message in loop_messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif -%}
+    {%- if (message['role'] == 'assistant') -%}
+        {%- set role = "model" -%}
+    {%- else -%}
+        {%- set role = message['role'] -%}
+    {%- endif -%}
+    {{ '<start_of_turn>' + role + '
+' + (first_user_prefix if loop.first else "") }}
+    {%- if message['content'] is string -%}
+        {{ message['content'] | trim }}
+    {%- elif message['content'] is iterable -%}
+        {%- for item in message['content'] -%}
+            {%- if item['type'] == 'image' -%}
+                {{ '<start_of_image>' }}
+            {%- elif item['type'] == 'text' -%}
+                {{ item['text'] | trim }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{ raise_exception("Invalid content type") }}
+    {%- endif -%}
+    {{ '<end_of_turn>
+' }}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{'<start_of_turn>model
+'}}
+{%- endif -%}

config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "_sliding_window_pattern": 6,
+  "architectures": [
+    "Gemma3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attn_logit_softcapping": null,
+  "bos_token_id": 2,
+  "dtype": "bfloat16",
+  "eos_token_id": 1,
+  "final_logit_softcapping": null,
+  "head_dim": 256,
+  "hidden_activation": "gelu_pytorch_tanh",
+  "hidden_size": 640,
+  "initializer_range": 0.02,
+  "intermediate_size": 2048,
+  "layer_types": [
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "model_type": "gemma3_text",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 18,
+  "num_key_value_heads": 1,
+  "pad_token_id": 0,
+  "query_pre_attn_scalar": 256,
+  "rms_norm_eps": 1e-06,
+  "rope_local_base_freq": 10000.0,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": 512,
+  "transformers_version": "4.56.1",
+  "use_bidirectional_attention": false,
+  "use_cache": true,
+  "vocab_size": 262144
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:413c3fdc908bf6e4a3965d5860885f93fa341c31edc76c3c4abe894e8091485d
+size 536223056

runs/Sep13_19-01-48_959205344c76/events.out.tfevents.1757790119.959205344c76.1552.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:887abcc3ec3bdfddf0b021a406ba67f4b0c82c7bf2e8176b885931675731a594
+size 6254

runs/Sep13_19-14-02_4a44d92d347d/events.out.tfevents.1757790862.4a44d92d347d.203.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:26b0d9b619987da641fb10038b788b862f6aac1119f275c7b5fca4c70ff59443
+size 21627

runs/Sep13_19-19-32_4a44d92d347d/events.out.tfevents.1757791182.4a44d92d347d.203.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff82f7668c98106377a51e6bb1df822cd58ca720b53a9af77623b92984fcd34e
+size 6250

runs/Sep13_19-20-38_4a44d92d347d/events.out.tfevents.1757791244.4a44d92d347d.203.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aca2b366c23fbc5c8c21b761453d4eb7fba3fb8528623c0cc604dc912c555eea
+size 11126

runs/Sep13_19-22-06_4a44d92d347d/events.out.tfevents.1757791329.4a44d92d347d.203.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:256291e830a95444ef7231ef6503f7acfc1631a2e67c133c5c7c4dfdfdb9e621
+size 6252

runs/Sep13_19-35-52_a572dfad7f82/events.out.tfevents.1757792167.a572dfad7f82.1820.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e7775fe5430233a83c5e587d7a0a9bbd69811c490ca355a7e11a99189498c18d
+size 6254

runs/Sep13_19-36-44_a572dfad7f82/events.out.tfevents.1757792210.a572dfad7f82.1820.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4abb114e6dc5be0fcc5488461658cdaf33718ba54a772a9697e41e8b02ab28af
+size 16004

runs/Sep13_19-39-12_a572dfad7f82/events.out.tfevents.1757792356.a572dfad7f82.1820.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a80b3dae21b55e3a96a8b211d9b556691dc38f03b3dd7f904fe3d79d65ab4f3d
+size 25379

runs/Sep13_19-41-07_a572dfad7f82/events.out.tfevents.1757792475.a572dfad7f82.1820.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b712c499e577ac1bf7eda771758bc2c6c6726ac67ab9a8e28c8d685bf427d894
+size 9251

runs/Sep13_19-42-59_a572dfad7f82/events.out.tfevents.1757792585.a572dfad7f82.1820.4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f5a9b783c258c4e4d7f371df58b5fd94334a6debf166bfffbe3287730bae063
+size 7001

runs/Sep13_19-51-28_6a75134f9ac0/events.out.tfevents.1757793101.6a75134f9ac0.244.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5ecbdea9d7e01e9547047e45acce2460b41ccb8766b441b91dd170974d75cb6
+size 153063

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
+size 33384568

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
+size 4689074

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10f9509a8d9c4d72c8220e667c2936fbd30a42031df98ef670e07969f3e42d32
+size 6289