Jiminiya commited on Feb 13, 2025

Commit

f0e6d73

verified ·

1 Parent(s): d3dbd13

Upload folder using huggingface_hub

Browse files

Files changed (25) hide show

README.md +145 -0
checkpoint-180/config.json +30 -0
checkpoint-180/generation_config.json +8 -0
checkpoint-180/model.safetensors +3 -0
checkpoint-180/optimizer.bin +3 -0
checkpoint-180/pytorch_model_fsdp.bin +3 -0
checkpoint-180/rng_state_0.pth +3 -0
checkpoint-180/rng_state_1.pth +3 -0
checkpoint-180/rng_state_2.pth +3 -0
checkpoint-180/rng_state_3.pth +3 -0
checkpoint-180/scheduler.pt +3 -0
checkpoint-180/special_tokens_map.json +30 -0
checkpoint-180/tokenizer.json +0 -0
checkpoint-180/tokenizer.model +3 -0
checkpoint-180/tokenizer_config.json +43 -0
checkpoint-180/trainer_state.json +1293 -0
checkpoint-180/training_args.bin +3 -0
config.json +30 -0
generation_config.json +8 -0
model.safetensors +3 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +43 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,145 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: Jiminiya/tiny_step1
+tags:
+- generated_from_trainer
+model-index:
+- name: outputs_continue_2
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+[<img src="https://raw.githubusercontent.com/axolotl-ai-cloud/axolotl/main/image/axolotl-badge-web.png" alt="Built with Axolotl" width="200" height="32"/>](https://github.com/axolotl-ai-cloud/axolotl)
+<details><summary>See axolotl config</summary>
+axolotl version: `0.6.0`
+```yaml
+#base_model: meta-llama/Llama-3.1-8B
+base_model: Jiminiya/tiny_step1
+model_type: LlamaForCausalLM
+tokenizer_type: AutoTokenizer
+special_tokens:
+  pad_token: "</s>"
+load_in_8bit: false
+load_in_4bit: false
+strict: false
+# max_steps:학습할 step. 논문 상에서는 400이라고 표기
+# 단, 학습 환경의 테스트를 위해 50으로 변경
+max_steps: 180
+pretraining_dataset:
+  - path: Jiminiya/INU
+    type: pretrain
+val_set_size: 0.0
+output_dir: ./outputs_continue_2
+#dataset_prepared_path:
+unfrozen_parameters:
+   - ^lm_head.*
+#    - ^model.embed_tokens.weight
+#     ^model.layers.*
+sequence_len: 2048
+sample_packing: false
+pad_to_sequence_len: false
+wandb_project:
+wandb_entity:
+wandb_watch:
+wandb_name:
+wandb_log_model:
+# gradient_accumulation_steps: 4
+# micro_batch_size: 8
+gradient_accumulation_steps: 4
+micro_batch_size: 2
+optimizer: adamw_torch
+lr_scheduler: cosine
+learning_rate: 4e-5
+train_on_inputs: false
+group_by_length: false
+bf16: auto
+fp16:
+tf32:
+gradient_checkpointing: true
+early_stopping_patience:
+resume_from_checkpoint:
+logging_steps: 1
+xformers_attention:
+flash_attention: false
+warmup_steps: 10
+save_steps: 200
+debug:
+deepspeed:
+weight_decay: 0.0
+fsdp:
+  - full_shard
+  - auto_wrap
+fsdp_config:
+  fsdp_limit_all_gathers: true
+  fsdp_sync_module_states: true
+  fsdp_offload_params: true
+  fsdp_use_orig_params: true
+  fsdp_cpu_ram_efficient_loading: false
+  fsdp_auto_wrap_policy: TRANSFORMER_BASED_WRAP
+  fsdp_transformer_layer_cls_to_wrap: LlamaDecoderLayer
+  fsdp_state_dict_type: FULL_STATE_DICT
+  fsdp_sharding_strategy: FULL_SHARD
+  fsdp_backward_prefetch: BACKWARD_POST
+```
+</details><br>
+# outputs_continue_2
+This model is a fine-tuned version of [Jiminiya/tiny_step1](https://huggingface.co/Jiminiya/tiny_step1) on an unknown dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 4e-05
+- train_batch_size: 2
+- eval_batch_size: 2
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 32
+- total_eval_batch_size: 8
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 10
+- training_steps: 180
+### Training results
+### Framework versions
+- Transformers 4.48.1
+- Pytorch 2.5.1+cu124
+- Datasets 3.2.0
+- Tokenizers 0.21.0

checkpoint-180/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "Jiminiya/tiny_step1",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 5632,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 22,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.1",
+  "use_cache": false,
+  "vocab_size": 32000
+}

checkpoint-180/generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "bos_token_id": 1,
+  "do_sample": true,
+  "eos_token_id": 2,
+  "max_length": 2048,
+  "pad_token_id": 0,
+  "transformers_version": "4.48.1"
+}

checkpoint-180/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc8a36d88735d6b99d596818ff20cd98dd222f4e4670290782996cce83e8f042
+size 2462268008

checkpoint-180/optimizer.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1078fae233fa0f997c10c7598abecc8c91aa63d3944eced6f5d37f5a18462e2
+size 524290146

checkpoint-180/pytorch_model_fsdp.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:196af0794ca205d81a1b3f358ef781b25a9ef1452a4cd755c7ae0c07cd8176e4
+size 2462343983

checkpoint-180/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ffb639768c91708df695c585429e90af6ac36cc2a44704cd2bc84a935ad31f2
+size 15024

checkpoint-180/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8be46b342c87cbcabffa42238e3556ee82e64446303b89f7a49d99beb8067148
+size 15024

checkpoint-180/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f67cb6d3c987c5e9d82aa648dc8aee43609b458f8baef5e18f7f72b31fea647d
+size 15024

checkpoint-180/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:625033414f26c16149a3c8e0f791602030231cb8d72adbbaf0f9abe58b8ecffb
+size 15024

checkpoint-180/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6335a47e089fab921060fa4128968c70aa54db276ec3393a5c66c98e57e0dd4b
+size 1064

checkpoint-180/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-180/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-180/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-180/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-180/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1293 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 89.0111111111111,
+  "eval_steps": 500,
+  "global_step": 180,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.005555555555555556,
+      "grad_norm": 2.4661359786987305,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 1.6655,
+      "step": 1
+    },
+    {
+      "epoch": 0.011111111111111112,
+      "grad_norm": 2.436788320541382,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 1.4955,
+      "step": 2
+    },
+    {
+      "epoch": 1.0055555555555555,
+      "grad_norm": 2.709148645401001,
+      "learning_rate": 1.2e-05,
+      "loss": 3.176,
+      "step": 3
+    },
+    {
+      "epoch": 1.011111111111111,
+      "grad_norm": 2.531345844268799,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 1.4436,
+      "step": 4
+    },
+    {
+      "epoch": 2.0055555555555555,
+      "grad_norm": 2.1641957759857178,
+      "learning_rate": 2e-05,
+      "loss": 3.2386,
+      "step": 5
+    },
+    {
+      "epoch": 2.011111111111111,
+      "grad_norm": 2.5990405082702637,
+      "learning_rate": 2.4e-05,
+      "loss": 1.5247,
+      "step": 6
+    },
+    {
+      "epoch": 3.0055555555555555,
+      "grad_norm": 2.355940818786621,
+      "learning_rate": 2.8e-05,
+      "loss": 2.946,
+      "step": 7
+    },
+    {
+      "epoch": 3.011111111111111,
+      "grad_norm": 2.312788963317871,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 1.5807,
+      "step": 8
+    },
+    {
+      "epoch": 4.0055555555555555,
+      "grad_norm": 2.0773563385009766,
+      "learning_rate": 3.6e-05,
+      "loss": 2.7929,
+      "step": 9
+    },
+    {
+      "epoch": 4.011111111111111,
+      "grad_norm": 2.6093788146972656,
+      "learning_rate": 4e-05,
+      "loss": 1.5504,
+      "step": 10
+    },
+    {
+      "epoch": 5.0055555555555555,
+      "grad_norm": 2.414492130279541,
+      "learning_rate": 3.9996585009161056e-05,
+      "loss": 2.8795,
+      "step": 11
+    },
+    {
+      "epoch": 5.011111111111111,
+      "grad_norm": 2.4428486824035645,
+      "learning_rate": 3.9986341202860467e-05,
+      "loss": 1.4725,
+      "step": 12
+    },
+    {
+      "epoch": 6.0055555555555555,
+      "grad_norm": 2.1731374263763428,
+      "learning_rate": 3.9969272079348685e-05,
+      "loss": 2.7246,
+      "step": 13
+    },
+    {
+      "epoch": 6.011111111111111,
+      "grad_norm": 2.0872628688812256,
+      "learning_rate": 3.994538346771576e-05,
+      "loss": 1.3387,
+      "step": 14
+    },
+    {
+      "epoch": 7.0055555555555555,
+      "grad_norm": 2.120208740234375,
+      "learning_rate": 3.991468352590069e-05,
+      "loss": 2.5507,
+      "step": 15
+    },
+    {
+      "epoch": 7.011111111111111,
+      "grad_norm": 2.0171964168548584,
+      "learning_rate": 3.987718273790548e-05,
+      "loss": 1.1936,
+      "step": 16
+    },
+    {
+      "epoch": 8.005555555555556,
+      "grad_norm": 1.9372913837432861,
+      "learning_rate": 3.983289391021486e-05,
+      "loss": 2.4933,
+      "step": 17
+    },
+    {
+      "epoch": 8.011111111111111,
+      "grad_norm": 1.9526296854019165,
+      "learning_rate": 3.9781832167422926e-05,
+      "loss": 1.2765,
+      "step": 18
+    },
+    {
+      "epoch": 9.005555555555556,
+      "grad_norm": 2.050081968307495,
+      "learning_rate": 3.972401494706805e-05,
+      "loss": 2.3595,
+      "step": 19
+    },
+    {
+      "epoch": 9.011111111111111,
+      "grad_norm": 1.751308798789978,
+      "learning_rate": 3.965946199367804e-05,
+      "loss": 1.1996,
+      "step": 20
+    },
+    {
+      "epoch": 10.005555555555556,
+      "grad_norm": 1.745150089263916,
+      "learning_rate": 3.958819535202732e-05,
+      "loss": 2.2313,
+      "step": 21
+    },
+    {
+      "epoch": 10.011111111111111,
+      "grad_norm": 1.9988559484481812,
+      "learning_rate": 3.951023935960874e-05,
+      "loss": 1.2053,
+      "step": 22
+    },
+    {
+      "epoch": 11.005555555555556,
+      "grad_norm": 1.741628646850586,
+      "learning_rate": 3.942562063832228e-05,
+      "loss": 2.0621,
+      "step": 23
+    },
+    {
+      "epoch": 11.011111111111111,
+      "grad_norm": 1.809770107269287,
+      "learning_rate": 3.933436808538375e-05,
+      "loss": 1.0686,
+      "step": 24
+    },
+    {
+      "epoch": 12.005555555555556,
+      "grad_norm": 1.723798155784607,
+      "learning_rate": 3.923651286345638e-05,
+      "loss": 2.377,
+      "step": 25
+    },
+    {
+      "epoch": 12.011111111111111,
+      "grad_norm": 1.8615117073059082,
+      "learning_rate": 3.913208839000882e-05,
+      "loss": 1.0577,
+      "step": 26
+    },
+    {
+      "epoch": 13.005555555555556,
+      "grad_norm": 1.5270243883132935,
+      "learning_rate": 3.9021130325903076e-05,
+      "loss": 1.7282,
+      "step": 27
+    },
+    {
+      "epoch": 13.011111111111111,
+      "grad_norm": 1.9072110652923584,
+      "learning_rate": 3.89036765632164e-05,
+      "loss": 1.0955,
+      "step": 28
+    },
+    {
+      "epoch": 14.005555555555556,
+      "grad_norm": 1.666566252708435,
+      "learning_rate": 3.877976721230114e-05,
+      "loss": 1.9452,
+      "step": 29
+    },
+    {
+      "epoch": 14.011111111111111,
+      "grad_norm": 1.6667906045913696,
+      "learning_rate": 3.864944458808712e-05,
+      "loss": 1.0229,
+      "step": 30
+    },
+    {
+      "epoch": 15.005555555555556,
+      "grad_norm": 1.6143485307693481,
+      "learning_rate": 3.851275319563113e-05,
+      "loss": 1.959,
+      "step": 31
+    },
+    {
+      "epoch": 15.011111111111111,
+      "grad_norm": 1.6035016775131226,
+      "learning_rate": 3.836973971491847e-05,
+      "loss": 0.9805,
+      "step": 32
+    },
+    {
+      "epoch": 16.005555555555556,
+      "grad_norm": 1.7784571647644043,
+      "learning_rate": 3.822045298492177e-05,
+      "loss": 1.7729,
+      "step": 33
+    },
+    {
+      "epoch": 16.011111111111113,
+      "grad_norm": 1.4132834672927856,
+      "learning_rate": 3.806494398692258e-05,
+      "loss": 0.8385,
+      "step": 34
+    },
+    {
+      "epoch": 17.005555555555556,
+      "grad_norm": 1.7934105396270752,
+      "learning_rate": 3.790326582710125e-05,
+      "loss": 1.9456,
+      "step": 35
+    },
+    {
+      "epoch": 17.011111111111113,
+      "grad_norm": 1.3573366403579712,
+      "learning_rate": 3.773547371840124e-05,
+      "loss": 0.8648,
+      "step": 36
+    },
+    {
+      "epoch": 18.005555555555556,
+      "grad_norm": 1.8247311115264893,
+      "learning_rate": 3.756162496167396e-05,
+      "loss": 1.7399,
+      "step": 37
+    },
+    {
+      "epoch": 18.011111111111113,
+      "grad_norm": 1.4213778972625732,
+      "learning_rate": 3.738177892611057e-05,
+      "loss": 0.8886,
+      "step": 38
+    },
+    {
+      "epoch": 19.005555555555556,
+      "grad_norm": 1.5431638956069946,
+      "learning_rate": 3.719599702896745e-05,
+      "loss": 1.6771,
+      "step": 39
+    },
+    {
+      "epoch": 19.011111111111113,
+      "grad_norm": 1.3147789239883423,
+      "learning_rate": 3.700434271459229e-05,
+      "loss": 0.7712,
+      "step": 40
+    },
+    {
+      "epoch": 20.005555555555556,
+      "grad_norm": 1.2570959329605103,
+      "learning_rate": 3.680688143275786e-05,
+      "loss": 1.6678,
+      "step": 41
+    },
+    {
+      "epoch": 20.011111111111113,
+      "grad_norm": 1.4288440942764282,
+      "learning_rate": 3.6603680616311013e-05,
+      "loss": 0.7298,
+      "step": 42
+    },
+    {
+      "epoch": 21.005555555555556,
+      "grad_norm": 1.330296516418457,
+      "learning_rate": 3.639480965814443e-05,
+      "loss": 1.4595,
+      "step": 43
+    },
+    {
+      "epoch": 21.011111111111113,
+      "grad_norm": 1.5652707815170288,
+      "learning_rate": 3.6180339887498953e-05,
+      "loss": 0.8478,
+      "step": 44
+    },
+    {
+      "epoch": 22.005555555555556,
+      "grad_norm": 1.2386178970336914,
+      "learning_rate": 3.5960344545604796e-05,
+      "loss": 1.4772,
+      "step": 45
+    },
+    {
+      "epoch": 22.011111111111113,
+      "grad_norm": 1.4858933687210083,
+      "learning_rate": 3.573489876066967e-05,
+      "loss": 0.7526,
+      "step": 46
+    },
+    {
+      "epoch": 23.005555555555556,
+      "grad_norm": 1.356368064880371,
+      "learning_rate": 3.55040795222226e-05,
+      "loss": 1.4374,
+      "step": 47
+    },
+    {
+      "epoch": 23.011111111111113,
+      "grad_norm": 1.3958989381790161,
+      "learning_rate": 3.526796565482206e-05,
+      "loss": 0.7137,
+      "step": 48
+    },
+    {
+      "epoch": 24.005555555555556,
+      "grad_norm": 1.2687575817108154,
+      "learning_rate": 3.502663779113747e-05,
+      "loss": 1.506,
+      "step": 49
+    },
+    {
+      "epoch": 24.011111111111113,
+      "grad_norm": 1.1373575925827026,
+      "learning_rate": 3.478017834441319e-05,
+      "loss": 0.6985,
+      "step": 50
+    },
+    {
+      "epoch": 25.005555555555556,
+      "grad_norm": 1.2077847719192505,
+      "learning_rate": 3.452867148032449e-05,
+      "loss": 1.3914,
+      "step": 51
+    },
+    {
+      "epoch": 25.011111111111113,
+      "grad_norm": 1.3798729181289673,
+      "learning_rate": 3.427220308823505e-05,
+      "loss": 0.7729,
+      "step": 52
+    },
+    {
+      "epoch": 26.005555555555556,
+      "grad_norm": 1.2104331254959106,
+      "learning_rate": 3.401086075186582e-05,
+      "loss": 1.257,
+      "step": 53
+    },
+    {
+      "epoch": 26.011111111111113,
+      "grad_norm": 1.277470588684082,
+      "learning_rate": 3.374473371938526e-05,
+      "loss": 0.7026,
+      "step": 54
+    },
+    {
+      "epoch": 27.005555555555556,
+      "grad_norm": 1.319318175315857,
+      "learning_rate": 3.347391287293115e-05,
+      "loss": 1.4463,
+      "step": 55
+    },
+    {
+      "epoch": 27.011111111111113,
+      "grad_norm": 1.1588152647018433,
+      "learning_rate": 3.319849069757446e-05,
+      "loss": 0.6308,
+      "step": 56
+    },
+    {
+      "epoch": 28.005555555555556,
+      "grad_norm": 1.316746473312378,
+      "learning_rate": 3.291856124973575e-05,
+      "loss": 1.3443,
+      "step": 57
+    },
+    {
+      "epoch": 28.011111111111113,
+      "grad_norm": 1.1471470594406128,
+      "learning_rate": 3.263422012506502e-05,
+      "loss": 0.614,
+      "step": 58
+    },
+    {
+      "epoch": 29.005555555555556,
+      "grad_norm": 1.3653746843338013,
+      "learning_rate": 3.234556442579586e-05,
+      "loss": 1.3079,
+      "step": 59
+    },
+    {
+      "epoch": 29.011111111111113,
+      "grad_norm": 1.275138020515442,
+      "learning_rate": 3.205269272758513e-05,
+      "loss": 0.5984,
+      "step": 60
+    },
+    {
+      "epoch": 30.005555555555556,
+      "grad_norm": 0.9681165814399719,
+      "learning_rate": 3.1755705045849465e-05,
+      "loss": 1.2511,
+      "step": 61
+    },
+    {
+      "epoch": 30.011111111111113,
+      "grad_norm": 1.3781417608261108,
+      "learning_rate": 3.145470280161011e-05,
+      "loss": 0.584,
+      "step": 62
+    },
+    {
+      "epoch": 31.005555555555556,
+      "grad_norm": 1.1990811824798584,
+      "learning_rate": 3.114978878685771e-05,
+      "loss": 1.1897,
+      "step": 63
+    },
+    {
+      "epoch": 31.011111111111113,
+      "grad_norm": 1.2162977457046509,
+      "learning_rate": 3.084106712944899e-05,
+      "loss": 0.6222,
+      "step": 64
+    },
+    {
+      "epoch": 32.00555555555555,
+      "grad_norm": 1.2030653953552246,
+      "learning_rate": 3.052864325754712e-05,
+      "loss": 1.2274,
+      "step": 65
+    },
+    {
+      "epoch": 32.01111111111111,
+      "grad_norm": 0.975091278553009,
+      "learning_rate": 3.021262386361814e-05,
+      "loss": 0.5352,
+      "step": 66
+    },
+    {
+      "epoch": 33.00555555555555,
+      "grad_norm": 1.3519790172576904,
+      "learning_rate": 2.9893116867995583e-05,
+      "loss": 1.2279,
+      "step": 67
+    },
+    {
+      "epoch": 33.01111111111111,
+      "grad_norm": 0.9604120254516602,
+      "learning_rate": 2.9570231382025732e-05,
+      "loss": 0.5505,
+      "step": 68
+    },
+    {
+      "epoch": 34.00555555555555,
+      "grad_norm": 1.1351654529571533,
+      "learning_rate": 2.924407767080627e-05,
+      "loss": 1.2232,
+      "step": 69
+    },
+    {
+      "epoch": 34.01111111111111,
+      "grad_norm": 1.191280484199524,
+      "learning_rate": 2.891476711553077e-05,
+      "loss": 0.526,
+      "step": 70
+    },
+    {
+      "epoch": 35.00555555555555,
+      "grad_norm": 1.213642954826355,
+      "learning_rate": 2.858241217545218e-05,
+      "loss": 1.1888,
+      "step": 71
+    },
+    {
+      "epoch": 35.01111111111111,
+      "grad_norm": 0.8892165422439575,
+      "learning_rate": 2.8247126349478073e-05,
+      "loss": 0.5471,
+      "step": 72
+    },
+    {
+      "epoch": 36.00555555555555,
+      "grad_norm": 1.0873414278030396,
+      "learning_rate": 2.790902413741085e-05,
+      "loss": 1.0696,
+      "step": 73
+    },
+    {
+      "epoch": 36.01111111111111,
+      "grad_norm": 1.070792555809021,
+      "learning_rate": 2.756822100084621e-05,
+      "loss": 0.558,
+      "step": 74
+    },
+    {
+      "epoch": 37.00555555555555,
+      "grad_norm": 1.0861364603042603,
+      "learning_rate": 2.7224833323743064e-05,
+      "loss": 1.019,
+      "step": 75
+    },
+    {
+      "epoch": 37.01111111111111,
+      "grad_norm": 1.0294417142868042,
+      "learning_rate": 2.6878978372678567e-05,
+      "loss": 0.5205,
+      "step": 76
+    },
+    {
+      "epoch": 38.00555555555555,
+      "grad_norm": 0.934058666229248,
+      "learning_rate": 2.6530774256801666e-05,
+      "loss": 0.983,
+      "step": 77
+    },
+    {
+      "epoch": 38.01111111111111,
+      "grad_norm": 1.0980716943740845,
+      "learning_rate": 2.618033988749895e-05,
+      "loss": 0.5306,
+      "step": 78
+    },
+    {
+      "epoch": 39.00555555555555,
+      "grad_norm": 1.4806180000305176,
+      "learning_rate": 2.5827794937786497e-05,
+      "loss": 1.2091,
+      "step": 79
+    },
+    {
+      "epoch": 39.01111111111111,
+      "grad_norm": 0.8035812377929688,
+      "learning_rate": 2.5473259801441663e-05,
+      "loss": 0.4874,
+      "step": 80
+    },
+    {
+      "epoch": 40.00555555555555,
+      "grad_norm": 0.9660578370094299,
+      "learning_rate": 2.5116855551888715e-05,
+      "loss": 1.0444,
+      "step": 81
+    },
+    {
+      "epoch": 40.01111111111111,
+      "grad_norm": 1.2110332250595093,
+      "learning_rate": 2.4758703900852376e-05,
+      "loss": 0.5502,
+      "step": 82
+    },
+    {
+      "epoch": 41.00555555555555,
+      "grad_norm": 1.1508184671401978,
+      "learning_rate": 2.4398927156793376e-05,
+      "loss": 0.9574,
+      "step": 83
+    },
+    {
+      "epoch": 41.01111111111111,
+      "grad_norm": 1.0473322868347168,
+      "learning_rate": 2.4037648183140205e-05,
+      "loss": 0.47,
+      "step": 84
+    },
+    {
+      "epoch": 42.00555555555555,
+      "grad_norm": 0.9665315747261047,
+      "learning_rate": 2.367499035633141e-05,
+      "loss": 1.0049,
+      "step": 85
+    },
+    {
+      "epoch": 42.01111111111111,
+      "grad_norm": 0.9815846681594849,
+      "learning_rate": 2.33110775236826e-05,
+      "loss": 0.4856,
+      "step": 86
+    },
+    {
+      "epoch": 43.00555555555555,
+      "grad_norm": 0.9438784122467041,
+      "learning_rate": 2.2946033961092754e-05,
+      "loss": 0.9671,
+      "step": 87
+    },
+    {
+      "epoch": 43.01111111111111,
+      "grad_norm": 1.1706269979476929,
+      "learning_rate": 2.257998433060407e-05,
+      "loss": 0.4977,
+      "step": 88
+    },
+    {
+      "epoch": 44.00555555555555,
+      "grad_norm": 1.1595220565795898,
+      "learning_rate": 2.2213053637830016e-05,
+      "loss": 0.9762,
+      "step": 89
+    },
+    {
+      "epoch": 44.01111111111111,
+      "grad_norm": 1.511170744895935,
+      "learning_rate": 2.184536718926604e-05,
+      "loss": 0.5609,
+      "step": 90
+    },
+    {
+      "epoch": 45.00555555555555,
+      "grad_norm": 0.9717811346054077,
+      "learning_rate": 2.147705054949748e-05,
+      "loss": 0.9186,
+      "step": 91
+    },
+    {
+      "epoch": 45.01111111111111,
+      "grad_norm": 0.8693075180053711,
+      "learning_rate": 2.11082294983194e-05,
+      "loss": 0.4779,
+      "step": 92
+    },
+    {
+      "epoch": 46.00555555555555,
+      "grad_norm": 0.9417635202407837,
+      "learning_rate": 2.0739029987782903e-05,
+      "loss": 0.9108,
+      "step": 93
+    },
+    {
+      "epoch": 46.01111111111111,
+      "grad_norm": 0.8994781970977783,
+      "learning_rate": 2.03695780991826e-05,
+      "loss": 0.4855,
+      "step": 94
+    },
+    {
+      "epoch": 47.00555555555555,
+      "grad_norm": 1.1585125923156738,
+      "learning_rate": 2e-05,
+      "loss": 0.9531,
+      "step": 95
+    },
+    {
+      "epoch": 47.01111111111111,
+      "grad_norm": 0.9600257873535156,
+      "learning_rate": 1.9630421900817407e-05,
+      "loss": 0.494,
+      "step": 96
+    },
+    {
+      "epoch": 48.00555555555555,
+      "grad_norm": 1.2095404863357544,
+      "learning_rate": 1.9260970012217107e-05,
+      "loss": 0.8899,
+      "step": 97
+    },
+    {
+      "epoch": 48.01111111111111,
+      "grad_norm": 0.8960286974906921,
+      "learning_rate": 1.8891770501680602e-05,
+      "loss": 0.4368,
+      "step": 98
+    },
+    {
+      "epoch": 49.00555555555555,
+      "grad_norm": 0.968328595161438,
+      "learning_rate": 1.8522949450502522e-05,
+      "loss": 1.0359,
+      "step": 99
+    },
+    {
+      "epoch": 49.01111111111111,
+      "grad_norm": 1.0718151330947876,
+      "learning_rate": 1.815463281073396e-05,
+      "loss": 0.4903,
+      "step": 100
+    },
+    {
+      "epoch": 50.00555555555555,
+      "grad_norm": 1.1338093280792236,
+      "learning_rate": 1.7786946362169987e-05,
+      "loss": 0.9169,
+      "step": 101
+    },
+    {
+      "epoch": 50.01111111111111,
+      "grad_norm": 0.9321633577346802,
+      "learning_rate": 1.742001566939594e-05,
+      "loss": 0.4071,
+      "step": 102
+    },
+    {
+      "epoch": 51.00555555555555,
+      "grad_norm": 1.1823705434799194,
+      "learning_rate": 1.705396603890725e-05,
+      "loss": 0.8915,
+      "step": 103
+    },
+    {
+      "epoch": 51.01111111111111,
+      "grad_norm": 0.8543993234634399,
+      "learning_rate": 1.66889224763174e-05,
+      "loss": 0.4676,
+      "step": 104
+    },
+    {
+      "epoch": 52.00555555555555,
+      "grad_norm": 1.0003684759140015,
+      "learning_rate": 1.6325009643668592e-05,
+      "loss": 0.9276,
+      "step": 105
+    },
+    {
+      "epoch": 52.01111111111111,
+      "grad_norm": 0.879921555519104,
+      "learning_rate": 1.59623518168598e-05,
+      "loss": 0.4429,
+      "step": 106
+    },
+    {
+      "epoch": 53.00555555555555,
+      "grad_norm": 0.93624347448349,
+      "learning_rate": 1.5601072843206634e-05,
+      "loss": 0.8572,
+      "step": 107
+    },
+    {
+      "epoch": 53.01111111111111,
+      "grad_norm": 1.0318535566329956,
+      "learning_rate": 1.524129609914763e-05,
+      "loss": 0.4265,
+      "step": 108
+    },
+    {
+      "epoch": 54.00555555555555,
+      "grad_norm": 1.082194209098816,
+      "learning_rate": 1.4883144448111288e-05,
+      "loss": 0.9541,
+      "step": 109
+    },
+    {
+      "epoch": 54.01111111111111,
+      "grad_norm": 0.960639476776123,
+      "learning_rate": 1.4526740198558345e-05,
+      "loss": 0.401,
+      "step": 110
+    },
+    {
+      "epoch": 55.00555555555555,
+      "grad_norm": 1.0439647436141968,
+      "learning_rate": 1.417220506221351e-05,
+      "loss": 0.9309,
+      "step": 111
+    },
+    {
+      "epoch": 55.01111111111111,
+      "grad_norm": 0.982650876045227,
+      "learning_rate": 1.3819660112501054e-05,
+      "loss": 0.4102,
+      "step": 112
+    },
+    {
+      "epoch": 56.00555555555555,
+      "grad_norm": 0.8614187836647034,
+      "learning_rate": 1.3469225743198337e-05,
+      "loss": 0.8775,
+      "step": 113
+    },
+    {
+      "epoch": 56.01111111111111,
+      "grad_norm": 1.095910668373108,
+      "learning_rate": 1.3121021627321438e-05,
+      "loss": 0.435,
+      "step": 114
+    },
+    {
+      "epoch": 57.00555555555555,
+      "grad_norm": 0.9055922627449036,
+      "learning_rate": 1.2775166676256942e-05,
+      "loss": 0.8587,
+      "step": 115
+    },
+    {
+      "epoch": 57.01111111111111,
+      "grad_norm": 1.1506797075271606,
+      "learning_rate": 1.2431778999153796e-05,
+      "loss": 0.4459,
+      "step": 116
+    },
+    {
+      "epoch": 58.00555555555555,
+      "grad_norm": 0.9050757884979248,
+      "learning_rate": 1.2090975862589151e-05,
+      "loss": 0.8311,
+      "step": 117
+    },
+    {
+      "epoch": 58.01111111111111,
+      "grad_norm": 0.846161425113678,
+      "learning_rate": 1.1752873650521934e-05,
+      "loss": 0.4002,
+      "step": 118
+    },
+    {
+      "epoch": 59.00555555555555,
+      "grad_norm": 1.0134700536727905,
+      "learning_rate": 1.1417587824547822e-05,
+      "loss": 0.9202,
+      "step": 119
+    },
+    {
+      "epoch": 59.01111111111111,
+      "grad_norm": 0.8739385008811951,
+      "learning_rate": 1.1085232884469236e-05,
+      "loss": 0.4268,
+      "step": 120
+    },
+    {
+      "epoch": 60.00555555555555,
+      "grad_norm": 0.9328306317329407,
+      "learning_rate": 1.0755922329193739e-05,
+      "loss": 0.8797,
+      "step": 121
+    },
+    {
+      "epoch": 60.01111111111111,
+      "grad_norm": 1.0130794048309326,
+      "learning_rate": 1.0429768617974271e-05,
+      "loss": 0.4173,
+      "step": 122
+    },
+    {
+      "epoch": 61.00555555555555,
+      "grad_norm": 0.9908707737922668,
+      "learning_rate": 1.0106883132004428e-05,
+      "loss": 0.7407,
+      "step": 123
+    },
+    {
+      "epoch": 61.01111111111111,
+      "grad_norm": 0.7447740435600281,
+      "learning_rate": 9.787376136381866e-06,
+      "loss": 0.4214,
+      "step": 124
+    },
+    {
+      "epoch": 62.00555555555555,
+      "grad_norm": 1.0056525468826294,
+      "learning_rate": 9.471356742452881e-06,
+      "loss": 0.832,
+      "step": 125
+    },
+    {
+      "epoch": 62.01111111111111,
+      "grad_norm": 0.9604623317718506,
+      "learning_rate": 9.158932870551012e-06,
+      "loss": 0.407,
+      "step": 126
+    },
+    {
+      "epoch": 63.00555555555555,
+      "grad_norm": 0.8304843306541443,
+      "learning_rate": 8.85021121314229e-06,
+      "loss": 0.784,
+      "step": 127
+    },
+    {
+      "epoch": 63.01111111111111,
+      "grad_norm": 0.8695037961006165,
+      "learning_rate": 8.545297198389896e-06,
+      "loss": 0.4088,
+      "step": 128
+    },
+    {
+      "epoch": 64.00555555555556,
+      "grad_norm": 0.8668813109397888,
+      "learning_rate": 8.24429495415054e-06,
+      "loss": 0.8336,
+      "step": 129
+    },
+    {
+      "epoch": 64.0111111111111,
+      "grad_norm": 1.1250050067901611,
+      "learning_rate": 7.947307272414874e-06,
+      "loss": 0.4529,
+      "step": 130
+    },
+    {
+      "epoch": 65.00555555555556,
+      "grad_norm": 1.0635528564453125,
+      "learning_rate": 7.654435574204145e-06,
+      "loss": 0.8638,
+      "step": 131
+    },
+    {
+      "epoch": 65.0111111111111,
+      "grad_norm": 0.7998731732368469,
+      "learning_rate": 7.365779874934987e-06,
+      "loss": 0.3651,
+      "step": 132
+    },
+    {
+      "epoch": 66.00555555555556,
+      "grad_norm": 1.1683666706085205,
+      "learning_rate": 7.081438750264258e-06,
+      "loss": 0.8704,
+      "step": 133
+    },
+    {
+      "epoch": 66.0111111111111,
+      "grad_norm": 0.911605715751648,
+      "learning_rate": 6.801509302425553e-06,
+      "loss": 0.4264,
+      "step": 134
+    },
+    {
+      "epoch": 67.00555555555556,
+      "grad_norm": 0.7795685529708862,
+      "learning_rate": 6.526087127068857e-06,
+      "loss": 0.7953,
+      "step": 135
+    },
+    {
+      "epoch": 67.0111111111111,
+      "grad_norm": 1.0329912900924683,
+      "learning_rate": 6.255266280614747e-06,
+      "loss": 0.4025,
+      "step": 136
+    },
+    {
+      "epoch": 68.00555555555556,
+      "grad_norm": 1.1942418813705444,
+      "learning_rate": 5.989139248134181e-06,
+      "loss": 0.8963,
+      "step": 137
+    },
+    {
+      "epoch": 68.0111111111111,
+      "grad_norm": 1.1305779218673706,
+      "learning_rate": 5.727796911764955e-06,
+      "loss": 0.4206,
+      "step": 138
+    },
+    {
+      "epoch": 69.00555555555556,
+      "grad_norm": 0.8273850679397583,
+      "learning_rate": 5.471328519675521e-06,
+      "loss": 0.798,
+      "step": 139
+    },
+    {
+      "epoch": 69.0111111111111,
+      "grad_norm": 0.9187830090522766,
+      "learning_rate": 5.219821655586821e-06,
+      "loss": 0.3705,
+      "step": 140
+    },
+    {
+      "epoch": 70.00555555555556,
+      "grad_norm": 0.9986073970794678,
+      "learning_rate": 4.9733622088625335e-06,
+      "loss": 0.7755,
+      "step": 141
+    },
+    {
+      "epoch": 70.0111111111111,
+      "grad_norm": 0.7928145527839661,
+      "learning_rate": 4.732034345177941e-06,
+      "loss": 0.4097,
+      "step": 142
+    },
+    {
+      "epoch": 71.00555555555556,
+      "grad_norm": 1.0464165210723877,
+      "learning_rate": 4.495920477777403e-06,
+      "loss": 0.8362,
+      "step": 143
+    },
+    {
+      "epoch": 71.0111111111111,
+      "grad_norm": 0.8963899612426758,
+      "learning_rate": 4.265101239330336e-06,
+      "loss": 0.4154,
+      "step": 144
+    },
+    {
+      "epoch": 72.00555555555556,
+      "grad_norm": 0.9925701022148132,
+      "learning_rate": 4.03965545439521e-06,
+      "loss": 0.7776,
+      "step": 145
+    },
+    {
+      "epoch": 72.0111111111111,
+      "grad_norm": 0.8580424785614014,
+      "learning_rate": 3.819660112501053e-06,
+      "loss": 0.4027,
+      "step": 146
+    },
+    {
+      "epoch": 73.00555555555556,
+      "grad_norm": 0.7751114368438721,
+      "learning_rate": 3.60519034185558e-06,
+      "loss": 0.6957,
+      "step": 147
+    },
+    {
+      "epoch": 73.0111111111111,
+      "grad_norm": 1.1692156791687012,
+      "learning_rate": 3.3963193836889907e-06,
+      "loss": 0.4551,
+      "step": 148
+    },
+    {
+      "epoch": 74.00555555555556,
+      "grad_norm": 1.0253629684448242,
+      "learning_rate": 3.193118567242148e-06,
+      "loss": 0.8051,
+      "step": 149
+    },
+    {
+      "epoch": 74.0111111111111,
+      "grad_norm": 0.9178398251533508,
+      "learning_rate": 2.9956572854077205e-06,
+      "loss": 0.4135,
+      "step": 150
+    },
+    {
+      "epoch": 75.00555555555556,
+      "grad_norm": 0.8287302851676941,
+      "learning_rate": 2.804002971032551e-06,
+      "loss": 0.7577,
+      "step": 151
+    },
+    {
+      "epoch": 75.0111111111111,
+      "grad_norm": 0.8081830143928528,
+      "learning_rate": 2.618221073889433e-06,
+      "loss": 0.374,
+      "step": 152
+    },
+    {
+      "epoch": 76.00555555555556,
+      "grad_norm": 0.8116244673728943,
+      "learning_rate": 2.4383750383260417e-06,
+      "loss": 0.9303,
+      "step": 153
+    },
+    {
+      "epoch": 76.0111111111111,
+      "grad_norm": 0.9563033580780029,
+      "learning_rate": 2.264526281598762e-06,
+      "loss": 0.3772,
+      "step": 154
+    },
+    {
+      "epoch": 77.00555555555556,
+      "grad_norm": 0.9266010522842407,
+      "learning_rate": 2.0967341728987554e-06,
+      "loss": 0.7978,
+      "step": 155
+    },
+    {
+      "epoch": 77.0111111111111,
+      "grad_norm": 0.8907399773597717,
+      "learning_rate": 1.9350560130774234e-06,
+      "loss": 0.3479,
+      "step": 156
+    },
+    {
+      "epoch": 78.00555555555556,
+      "grad_norm": 0.8672574758529663,
+      "learning_rate": 1.7795470150782312e-06,
+      "loss": 0.7473,
+      "step": 157
+    },
+    {
+      "epoch": 78.0111111111111,
+      "grad_norm": 0.8016725182533264,
+      "learning_rate": 1.6302602850815397e-06,
+      "loss": 0.3785,
+      "step": 158
+    },
+    {
+      "epoch": 79.00555555555556,
+      "grad_norm": 0.8856578469276428,
+      "learning_rate": 1.487246804368876e-06,
+      "loss": 0.8051,
+      "step": 159
+    },
+    {
+      "epoch": 79.0111111111111,
+      "grad_norm": 0.8816702961921692,
+      "learning_rate": 1.3505554119128861e-06,
+      "loss": 0.4356,
+      "step": 160
+    },
+    {
+      "epoch": 80.00555555555556,
+      "grad_norm": 0.8219400644302368,
+      "learning_rate": 1.2202327876988719e-06,
+      "loss": 0.7872,
+      "step": 161
+    },
+    {
+      "epoch": 80.0111111111111,
+      "grad_norm": 0.9030799269676208,
+      "learning_rate": 1.0963234367836106e-06,
+      "loss": 0.4088,
+      "step": 162
+    },
+    {
+      "epoch": 81.00555555555556,
+      "grad_norm": 0.7858496308326721,
+      "learning_rate": 9.788696740969295e-07,
+      "loss": 0.7501,
+      "step": 163
+    },
+    {
+      "epoch": 81.0111111111111,
+      "grad_norm": 0.8430002331733704,
+      "learning_rate": 8.679116099911855e-07,
+      "loss": 0.3966,
+      "step": 164
+    },
+    {
+      "epoch": 82.00555555555556,
+      "grad_norm": 0.9193421602249146,
+      "learning_rate": 7.634871365436192e-07,
+      "loss": 0.8171,
+      "step": 165
+    },
+    {
+      "epoch": 82.0111111111111,
+      "grad_norm": 0.8523241281509399,
+      "learning_rate": 6.656319146162516e-07,
+      "loss": 0.3779,
+      "step": 166
+    },
+    {
+      "epoch": 83.00555555555556,
+      "grad_norm": 0.839622974395752,
+      "learning_rate": 5.743793616777216e-07,
+      "loss": 0.8187,
+      "step": 167
+    },
+    {
+      "epoch": 83.0111111111111,
+      "grad_norm": 0.9939560890197754,
+      "learning_rate": 4.89760640391268e-07,
+      "loss": 0.4129,
+      "step": 168
+    },
+    {
+      "epoch": 84.00555555555556,
+      "grad_norm": 0.9763411283493042,
+      "learning_rate": 4.118046479726823e-07,
+      "loss": 0.7785,
+      "step": 169
+    },
+    {
+      "epoch": 84.0111111111111,
+      "grad_norm": 0.9105129837989807,
+      "learning_rate": 3.4053800632196434e-07,
+      "loss": 0.4133,
+      "step": 170
+    },
+    {
+      "epoch": 85.00555555555556,
+      "grad_norm": 0.966189444065094,
+      "learning_rate": 2.7598505293194855e-07,
+      "loss": 0.7778,
+      "step": 171
+    },
+    {
+      "epoch": 85.0111111111111,
+      "grad_norm": 0.9058474898338318,
+      "learning_rate": 2.1816783257708084e-07,
+      "loss": 0.3874,
+      "step": 172
+    },
+    {
+      "epoch": 86.00555555555556,
+      "grad_norm": 0.8936800956726074,
+      "learning_rate": 1.6710608978514509e-07,
+      "loss": 0.8521,
+      "step": 173
+    },
+    {
+      "epoch": 86.0111111111111,
+      "grad_norm": 0.936042070388794,
+      "learning_rate": 1.2281726209452782e-07,
+      "loss": 0.4156,
+      "step": 174
+    },
+    {
+      "epoch": 87.00555555555556,
+      "grad_norm": 0.8637453317642212,
+      "learning_rate": 8.531647409931065e-08,
+      "loss": 0.8011,
+      "step": 175
+    },
+    {
+      "epoch": 87.0111111111111,
+      "grad_norm": 0.8020222187042236,
+      "learning_rate": 5.4616532284239576e-08,
+      "loss": 0.3535,
+      "step": 176
+    },
+    {
+      "epoch": 88.00555555555556,
+      "grad_norm": 0.8789599537849426,
+      "learning_rate": 3.072792065132113e-08,
+      "loss": 0.7711,
+      "step": 177
+    },
+    {
+      "epoch": 88.0111111111111,
+      "grad_norm": 0.9251433610916138,
+      "learning_rate": 1.365879713954188e-08,
+      "loss": 0.4039,
+      "step": 178
+    },
+    {
+      "epoch": 89.00555555555556,
+      "grad_norm": 0.8520329594612122,
+      "learning_rate": 3.414990838945809e-09,
+      "loss": 0.7674,
+      "step": 179
+    },
+    {
+      "epoch": 89.0111111111111,
+      "grad_norm": 1.1043436527252197,
+      "learning_rate": 0.0,
+      "loss": 0.4059,
+      "step": 180
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 180,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9223372036854775807,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 870396069937152.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-180/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8358c760de71fead3d43b49d726f9b3f5dec2f2eb4cd58baf1f0c05914e265c2
+size 6712

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "Jiminiya/tiny_step1",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 5632,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 22,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.1",
+  "use_cache": false,
+  "vocab_size": 32000
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "bos_token_id": 1,
+  "do_sample": true,
+  "eos_token_id": 2,
+  "max_length": 2048,
+  "pad_token_id": 0,
+  "transformers_version": "4.48.1"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc8a36d88735d6b99d596818ff20cd98dd222f4e4670290782996cce83e8f042
+size 2462268008

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8358c760de71fead3d43b49d726f9b3f5dec2f2eb4cd58baf1f0c05914e265c2
+size 6712