Training in progress, step 100, checkpoint

Browse files

Files changed (11) hide show

last-checkpoint/config.json +30 -0
last-checkpoint/generation_config.json +8 -0
last-checkpoint/model.safetensors +3 -0
last-checkpoint/optimizer.pt +3 -0
last-checkpoint/rng_state.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/special_tokens_map.json +23 -0
last-checkpoint/tokenizer.json +0 -0
last-checkpoint/tokenizer_config.json +103 -0
last-checkpoint/trainer_state.json +742 -0
last-checkpoint/training_args.bin +3 -0

last-checkpoint/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 31989,
+  "eos_token_id": 31989,
+  "head_dim": 4,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "max_position_embeddings": 1024,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "pad_token_id": 31989,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.54.1",
+  "use_cache": false,
+  "vocab_size": 32000
+}

last-checkpoint/generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 31989,
+  "eos_token_id": 31989,
+  "pad_token_id": 31989,
+  "transformers_version": "4.54.1",
+  "use_cache": false
+}

last-checkpoint/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0cbcc431d60365d9892d0d125b963ba50e742d7006faa6b3c27de78364a2185a
+size 2066752

last-checkpoint/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba8ddf19cc92bc2fdec7d7142903454ff8a568ba7a1522791951a991b492aa7f
+size 4121235

last-checkpoint/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4697ad772eee8caffe599f8ac855a6f23f3029ebef7ed8bcd2b6d591ce783b2d
+size 14391

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6137085b09493da9d6159e8c050c83cf7c7c75be5fdb00e9604cb034d7c6e959
+size 1401

last-checkpoint/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

last-checkpoint/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,103 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "31989": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "31990": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "31991": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "31992": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "31993": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "31994": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "31995": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "31996": {
+      "content": "<|unused_special_token_0|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "31997": {
+      "content": "<|unused_special_token_1|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "31998": {
+      "content": "<|unused_special_token_2|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "31999": {
+      "content": "<|unused_special_token_3|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "<|endoftext|>"
+}

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,742 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.004318908180012093,
+  "eval_steps": 100,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 4.3189081800120926e-05,
+      "grad_norm": 0.220703125,
+      "learning_rate": 0.0,
+      "loss": 10.3655,
+      "step": 1
+    },
+    {
+      "epoch": 8.637816360024185e-05,
+      "grad_norm": 0.2158203125,
+      "learning_rate": 8.635578583765112e-07,
+      "loss": 10.3669,
+      "step": 2
+    },
+    {
+      "epoch": 0.0001295672454003628,
+      "grad_norm": 0.267578125,
+      "learning_rate": 1.7271157167530224e-06,
+      "loss": 10.3661,
+      "step": 3
+    },
+    {
+      "epoch": 0.0001727563272004837,
+      "grad_norm": 0.625,
+      "learning_rate": 2.5906735751295338e-06,
+      "loss": 10.352,
+      "step": 4
+    },
+    {
+      "epoch": 0.00021594540900060464,
+      "grad_norm": 0.2060546875,
+      "learning_rate": 3.454231433506045e-06,
+      "loss": 10.3656,
+      "step": 5
+    },
+    {
+      "epoch": 0.0002591344908007256,
+      "grad_norm": 0.2041015625,
+      "learning_rate": 4.3177892918825564e-06,
+      "loss": 10.3658,
+      "step": 6
+    },
+    {
+      "epoch": 0.0003023235726008465,
+      "grad_norm": 0.275390625,
+      "learning_rate": 5.1813471502590676e-06,
+      "loss": 10.3697,
+      "step": 7
+    },
+    {
+      "epoch": 0.0003455126544009674,
+      "grad_norm": 0.318359375,
+      "learning_rate": 6.044905008635579e-06,
+      "loss": 10.3582,
+      "step": 8
+    },
+    {
+      "epoch": 0.00038870173620108835,
+      "grad_norm": 0.2412109375,
+      "learning_rate": 6.90846286701209e-06,
+      "loss": 10.3657,
+      "step": 9
+    },
+    {
+      "epoch": 0.0004318908180012093,
+      "grad_norm": 0.24609375,
+      "learning_rate": 7.772020725388602e-06,
+      "loss": 10.3693,
+      "step": 10
+    },
+    {
+      "epoch": 0.00047507989980133023,
+      "grad_norm": 0.20703125,
+      "learning_rate": 8.635578583765113e-06,
+      "loss": 10.3664,
+      "step": 11
+    },
+    {
+      "epoch": 0.0005182689816014512,
+      "grad_norm": 0.26171875,
+      "learning_rate": 9.499136442141624e-06,
+      "loss": 10.3676,
+      "step": 12
+    },
+    {
+      "epoch": 0.0005614580634015721,
+      "grad_norm": 0.21484375,
+      "learning_rate": 1.0362694300518135e-05,
+      "loss": 10.3704,
+      "step": 13
+    },
+    {
+      "epoch": 0.000604647145201693,
+      "grad_norm": 0.23046875,
+      "learning_rate": 1.1226252158894646e-05,
+      "loss": 10.3665,
+      "step": 14
+    },
+    {
+      "epoch": 0.000647836227001814,
+      "grad_norm": 0.189453125,
+      "learning_rate": 1.2089810017271157e-05,
+      "loss": 10.3679,
+      "step": 15
+    },
+    {
+      "epoch": 0.0006910253088019348,
+      "grad_norm": 0.21875,
+      "learning_rate": 1.2953367875647668e-05,
+      "loss": 10.3683,
+      "step": 16
+    },
+    {
+      "epoch": 0.0007342143906020558,
+      "grad_norm": 0.234375,
+      "learning_rate": 1.381692573402418e-05,
+      "loss": 10.3693,
+      "step": 17
+    },
+    {
+      "epoch": 0.0007774034724021767,
+      "grad_norm": 0.28125,
+      "learning_rate": 1.468048359240069e-05,
+      "loss": 10.3655,
+      "step": 18
+    },
+    {
+      "epoch": 0.0008205925542022976,
+      "grad_norm": 0.205078125,
+      "learning_rate": 1.5544041450777204e-05,
+      "loss": 10.3689,
+      "step": 19
+    },
+    {
+      "epoch": 0.0008637816360024186,
+      "grad_norm": 0.255859375,
+      "learning_rate": 1.6407599309153716e-05,
+      "loss": 10.3656,
+      "step": 20
+    },
+    {
+      "epoch": 0.0009069707178025395,
+      "grad_norm": 0.2314453125,
+      "learning_rate": 1.7271157167530226e-05,
+      "loss": 10.3666,
+      "step": 21
+    },
+    {
+      "epoch": 0.0009501597996026605,
+      "grad_norm": 0.25,
+      "learning_rate": 1.8134715025906735e-05,
+      "loss": 10.3641,
+      "step": 22
+    },
+    {
+      "epoch": 0.0009933488814027813,
+      "grad_norm": 0.2216796875,
+      "learning_rate": 1.8998272884283248e-05,
+      "loss": 10.3662,
+      "step": 23
+    },
+    {
+      "epoch": 0.0010365379632029023,
+      "grad_norm": 0.201171875,
+      "learning_rate": 1.9861830742659757e-05,
+      "loss": 10.3682,
+      "step": 24
+    },
+    {
+      "epoch": 0.0010797270450030232,
+      "grad_norm": 0.2109375,
+      "learning_rate": 2.072538860103627e-05,
+      "loss": 10.3673,
+      "step": 25
+    },
+    {
+      "epoch": 0.0011229161268031442,
+      "grad_norm": 0.2216796875,
+      "learning_rate": 2.158894645941278e-05,
+      "loss": 10.3672,
+      "step": 26
+    },
+    {
+      "epoch": 0.001166105208603265,
+      "grad_norm": 0.2734375,
+      "learning_rate": 2.2452504317789292e-05,
+      "loss": 10.3693,
+      "step": 27
+    },
+    {
+      "epoch": 0.001209294290403386,
+      "grad_norm": 0.2890625,
+      "learning_rate": 2.3316062176165802e-05,
+      "loss": 10.3654,
+      "step": 28
+    },
+    {
+      "epoch": 0.001252483372203507,
+      "grad_norm": 0.283203125,
+      "learning_rate": 2.4179620034542315e-05,
+      "loss": 10.3677,
+      "step": 29
+    },
+    {
+      "epoch": 0.001295672454003628,
+      "grad_norm": 0.2353515625,
+      "learning_rate": 2.5043177892918828e-05,
+      "loss": 10.3649,
+      "step": 30
+    },
+    {
+      "epoch": 0.0013388615358037488,
+      "grad_norm": 0.205078125,
+      "learning_rate": 2.5906735751295337e-05,
+      "loss": 10.3635,
+      "step": 31
+    },
+    {
+      "epoch": 0.0013820506176038696,
+      "grad_norm": 0.2119140625,
+      "learning_rate": 2.677029360967185e-05,
+      "loss": 10.3665,
+      "step": 32
+    },
+    {
+      "epoch": 0.0014252396994039907,
+      "grad_norm": 0.2001953125,
+      "learning_rate": 2.763385146804836e-05,
+      "loss": 10.3649,
+      "step": 33
+    },
+    {
+      "epoch": 0.0014684287812041115,
+      "grad_norm": 0.263671875,
+      "learning_rate": 2.8497409326424872e-05,
+      "loss": 10.3654,
+      "step": 34
+    },
+    {
+      "epoch": 0.0015116178630042326,
+      "grad_norm": 0.28515625,
+      "learning_rate": 2.936096718480138e-05,
+      "loss": 10.3687,
+      "step": 35
+    },
+    {
+      "epoch": 0.0015548069448043534,
+      "grad_norm": 0.2734375,
+      "learning_rate": 3.0224525043177894e-05,
+      "loss": 10.3703,
+      "step": 36
+    },
+    {
+      "epoch": 0.0015979960266044744,
+      "grad_norm": 0.208984375,
+      "learning_rate": 3.108808290155441e-05,
+      "loss": 10.3681,
+      "step": 37
+    },
+    {
+      "epoch": 0.0016411851084045953,
+      "grad_norm": 0.2353515625,
+      "learning_rate": 3.195164075993091e-05,
+      "loss": 10.3671,
+      "step": 38
+    },
+    {
+      "epoch": 0.0016843741902047163,
+      "grad_norm": 0.2109375,
+      "learning_rate": 3.281519861830743e-05,
+      "loss": 10.37,
+      "step": 39
+    },
+    {
+      "epoch": 0.0017275632720048372,
+      "grad_norm": 0.24609375,
+      "learning_rate": 3.367875647668394e-05,
+      "loss": 10.366,
+      "step": 40
+    },
+    {
+      "epoch": 0.0017707523538049582,
+      "grad_norm": 0.212890625,
+      "learning_rate": 3.454231433506045e-05,
+      "loss": 10.3706,
+      "step": 41
+    },
+    {
+      "epoch": 0.001813941435605079,
+      "grad_norm": 0.1962890625,
+      "learning_rate": 3.540587219343696e-05,
+      "loss": 10.3664,
+      "step": 42
+    },
+    {
+      "epoch": 0.0018571305174051999,
+      "grad_norm": 0.21875,
+      "learning_rate": 3.626943005181347e-05,
+      "loss": 10.3726,
+      "step": 43
+    },
+    {
+      "epoch": 0.001900319599205321,
+      "grad_norm": 0.3203125,
+      "learning_rate": 3.713298791018998e-05,
+      "loss": 10.3727,
+      "step": 44
+    },
+    {
+      "epoch": 0.0019435086810054417,
+      "grad_norm": 0.255859375,
+      "learning_rate": 3.7996545768566496e-05,
+      "loss": 10.3631,
+      "step": 45
+    },
+    {
+      "epoch": 0.0019866977628055626,
+      "grad_norm": 0.193359375,
+      "learning_rate": 3.8860103626943e-05,
+      "loss": 10.3614,
+      "step": 46
+    },
+    {
+      "epoch": 0.002029886844605684,
+      "grad_norm": 0.2314453125,
+      "learning_rate": 3.9723661485319515e-05,
+      "loss": 10.3715,
+      "step": 47
+    },
+    {
+      "epoch": 0.0020730759264058047,
+      "grad_norm": 0.224609375,
+      "learning_rate": 4.0587219343696034e-05,
+      "loss": 10.3669,
+      "step": 48
+    },
+    {
+      "epoch": 0.0021162650082059255,
+      "grad_norm": 0.2734375,
+      "learning_rate": 4.145077720207254e-05,
+      "loss": 10.3595,
+      "step": 49
+    },
+    {
+      "epoch": 0.0021594540900060463,
+      "grad_norm": 0.69921875,
+      "learning_rate": 4.231433506044905e-05,
+      "loss": 10.3658,
+      "step": 50
+    },
+    {
+      "epoch": 0.0022026431718061676,
+      "grad_norm": 0.1953125,
+      "learning_rate": 4.317789291882556e-05,
+      "loss": 10.3619,
+      "step": 51
+    },
+    {
+      "epoch": 0.0022458322536062884,
+      "grad_norm": 0.203125,
+      "learning_rate": 4.404145077720207e-05,
+      "loss": 10.3636,
+      "step": 52
+    },
+    {
+      "epoch": 0.0022890213354064093,
+      "grad_norm": 0.224609375,
+      "learning_rate": 4.4905008635578585e-05,
+      "loss": 10.3652,
+      "step": 53
+    },
+    {
+      "epoch": 0.00233221041720653,
+      "grad_norm": 0.2060546875,
+      "learning_rate": 4.57685664939551e-05,
+      "loss": 10.3709,
+      "step": 54
+    },
+    {
+      "epoch": 0.002375399499006651,
+      "grad_norm": 0.22265625,
+      "learning_rate": 4.6632124352331604e-05,
+      "loss": 10.3691,
+      "step": 55
+    },
+    {
+      "epoch": 0.002418588580806772,
+      "grad_norm": 0.1962890625,
+      "learning_rate": 4.7495682210708117e-05,
+      "loss": 10.3668,
+      "step": 56
+    },
+    {
+      "epoch": 0.002461777662606893,
+      "grad_norm": 0.251953125,
+      "learning_rate": 4.835924006908463e-05,
+      "loss": 10.3635,
+      "step": 57
+    },
+    {
+      "epoch": 0.002504966744407014,
+      "grad_norm": 0.20703125,
+      "learning_rate": 4.922279792746114e-05,
+      "loss": 10.3682,
+      "step": 58
+    },
+    {
+      "epoch": 0.0025481558262071347,
+      "grad_norm": 0.2021484375,
+      "learning_rate": 5.0086355785837655e-05,
+      "loss": 10.3633,
+      "step": 59
+    },
+    {
+      "epoch": 0.002591344908007256,
+      "grad_norm": 0.1943359375,
+      "learning_rate": 5.094991364421416e-05,
+      "loss": 10.3658,
+      "step": 60
+    },
+    {
+      "epoch": 0.002634533989807377,
+      "grad_norm": 0.2119140625,
+      "learning_rate": 5.1813471502590674e-05,
+      "loss": 10.3674,
+      "step": 61
+    },
+    {
+      "epoch": 0.0026777230716074976,
+      "grad_norm": 0.1875,
+      "learning_rate": 5.267702936096719e-05,
+      "loss": 10.3652,
+      "step": 62
+    },
+    {
+      "epoch": 0.0027209121534076184,
+      "grad_norm": 0.1962890625,
+      "learning_rate": 5.35405872193437e-05,
+      "loss": 10.3715,
+      "step": 63
+    },
+    {
+      "epoch": 0.0027641012352077393,
+      "grad_norm": 0.3125,
+      "learning_rate": 5.4404145077720206e-05,
+      "loss": 10.3699,
+      "step": 64
+    },
+    {
+      "epoch": 0.0028072903170078605,
+      "grad_norm": 0.263671875,
+      "learning_rate": 5.526770293609672e-05,
+      "loss": 10.361,
+      "step": 65
+    },
+    {
+      "epoch": 0.0028504793988079814,
+      "grad_norm": 0.2412109375,
+      "learning_rate": 5.613126079447323e-05,
+      "loss": 10.3627,
+      "step": 66
+    },
+    {
+      "epoch": 0.002893668480608102,
+      "grad_norm": 0.20703125,
+      "learning_rate": 5.6994818652849744e-05,
+      "loss": 10.3659,
+      "step": 67
+    },
+    {
+      "epoch": 0.002936857562408223,
+      "grad_norm": 0.19921875,
+      "learning_rate": 5.785837651122625e-05,
+      "loss": 10.3686,
+      "step": 68
+    },
+    {
+      "epoch": 0.0029800466442083443,
+      "grad_norm": 0.2177734375,
+      "learning_rate": 5.872193436960276e-05,
+      "loss": 10.367,
+      "step": 69
+    },
+    {
+      "epoch": 0.003023235726008465,
+      "grad_norm": 0.22265625,
+      "learning_rate": 5.9585492227979276e-05,
+      "loss": 10.3683,
+      "step": 70
+    },
+    {
+      "epoch": 0.003066424807808586,
+      "grad_norm": 0.244140625,
+      "learning_rate": 6.044905008635579e-05,
+      "loss": 10.3621,
+      "step": 71
+    },
+    {
+      "epoch": 0.003109613889608707,
+      "grad_norm": 0.2470703125,
+      "learning_rate": 6.13126079447323e-05,
+      "loss": 10.3657,
+      "step": 72
+    },
+    {
+      "epoch": 0.003152802971408828,
+      "grad_norm": 0.32421875,
+      "learning_rate": 6.217616580310881e-05,
+      "loss": 10.3647,
+      "step": 73
+    },
+    {
+      "epoch": 0.003195992053208949,
+      "grad_norm": 0.2275390625,
+      "learning_rate": 6.303972366148531e-05,
+      "loss": 10.3607,
+      "step": 74
+    },
+    {
+      "epoch": 0.0032391811350090697,
+      "grad_norm": 0.2041015625,
+      "learning_rate": 6.390328151986183e-05,
+      "loss": 10.3647,
+      "step": 75
+    },
+    {
+      "epoch": 0.0032823702168091906,
+      "grad_norm": 0.185546875,
+      "learning_rate": 6.476683937823834e-05,
+      "loss": 10.3695,
+      "step": 76
+    },
+    {
+      "epoch": 0.0033255592986093114,
+      "grad_norm": 0.203125,
+      "learning_rate": 6.563039723661487e-05,
+      "loss": 10.3706,
+      "step": 77
+    },
+    {
+      "epoch": 0.0033687483804094327,
+      "grad_norm": 0.271484375,
+      "learning_rate": 6.649395509499136e-05,
+      "loss": 10.3686,
+      "step": 78
+    },
+    {
+      "epoch": 0.0034119374622095535,
+      "grad_norm": 0.224609375,
+      "learning_rate": 6.735751295336788e-05,
+      "loss": 10.3653,
+      "step": 79
+    },
+    {
+      "epoch": 0.0034551265440096743,
+      "grad_norm": 0.2197265625,
+      "learning_rate": 6.822107081174439e-05,
+      "loss": 10.3645,
+      "step": 80
+    },
+    {
+      "epoch": 0.003498315625809795,
+      "grad_norm": 0.2109375,
+      "learning_rate": 6.90846286701209e-05,
+      "loss": 10.3627,
+      "step": 81
+    },
+    {
+      "epoch": 0.0035415047076099164,
+      "grad_norm": 0.27734375,
+      "learning_rate": 6.994818652849742e-05,
+      "loss": 10.3682,
+      "step": 82
+    },
+    {
+      "epoch": 0.0035846937894100372,
+      "grad_norm": 0.2041015625,
+      "learning_rate": 7.081174438687392e-05,
+      "loss": 10.367,
+      "step": 83
+    },
+    {
+      "epoch": 0.003627882871210158,
+      "grad_norm": 0.318359375,
+      "learning_rate": 7.167530224525043e-05,
+      "loss": 10.3674,
+      "step": 84
+    },
+    {
+      "epoch": 0.003671071953010279,
+      "grad_norm": 0.24609375,
+      "learning_rate": 7.253886010362694e-05,
+      "loss": 10.3654,
+      "step": 85
+    },
+    {
+      "epoch": 0.0037142610348103997,
+      "grad_norm": 0.2734375,
+      "learning_rate": 7.340241796200347e-05,
+      "loss": 10.3628,
+      "step": 86
+    },
+    {
+      "epoch": 0.003757450116610521,
+      "grad_norm": 0.2060546875,
+      "learning_rate": 7.426597582037997e-05,
+      "loss": 10.3677,
+      "step": 87
+    },
+    {
+      "epoch": 0.003800639198410642,
+      "grad_norm": 0.255859375,
+      "learning_rate": 7.512953367875648e-05,
+      "loss": 10.3702,
+      "step": 88
+    },
+    {
+      "epoch": 0.0038438282802107627,
+      "grad_norm": 0.2216796875,
+      "learning_rate": 7.599309153713299e-05,
+      "loss": 10.3669,
+      "step": 89
+    },
+    {
+      "epoch": 0.0038870173620108835,
+      "grad_norm": 0.25390625,
+      "learning_rate": 7.68566493955095e-05,
+      "loss": 10.3623,
+      "step": 90
+    },
+    {
+      "epoch": 0.003930206443811005,
+      "grad_norm": 0.216796875,
+      "learning_rate": 7.7720207253886e-05,
+      "loss": 10.3645,
+      "step": 91
+    },
+    {
+      "epoch": 0.003973395525611125,
+      "grad_norm": 0.2109375,
+      "learning_rate": 7.858376511226252e-05,
+      "loss": 10.3628,
+      "step": 92
+    },
+    {
+      "epoch": 0.004016584607411246,
+      "grad_norm": 0.32421875,
+      "learning_rate": 7.944732297063903e-05,
+      "loss": 10.3751,
+      "step": 93
+    },
+    {
+      "epoch": 0.004059773689211368,
+      "grad_norm": 0.294921875,
+      "learning_rate": 8.031088082901554e-05,
+      "loss": 10.3659,
+      "step": 94
+    },
+    {
+      "epoch": 0.004102962771011488,
+      "grad_norm": 0.31640625,
+      "learning_rate": 8.117443868739207e-05,
+      "loss": 10.3579,
+      "step": 95
+    },
+    {
+      "epoch": 0.004146151852811609,
+      "grad_norm": 0.27734375,
+      "learning_rate": 8.203799654576857e-05,
+      "loss": 10.364,
+      "step": 96
+    },
+    {
+      "epoch": 0.00418934093461173,
+      "grad_norm": 0.212890625,
+      "learning_rate": 8.290155440414508e-05,
+      "loss": 10.3689,
+      "step": 97
+    },
+    {
+      "epoch": 0.004232530016411851,
+      "grad_norm": 0.19921875,
+      "learning_rate": 8.37651122625216e-05,
+      "loss": 10.3659,
+      "step": 98
+    },
+    {
+      "epoch": 0.004275719098211972,
+      "grad_norm": 0.1904296875,
+      "learning_rate": 8.46286701208981e-05,
+      "loss": 10.3626,
+      "step": 99
+    },
+    {
+      "epoch": 0.004318908180012093,
+      "grad_norm": 0.19921875,
+      "learning_rate": 8.54922279792746e-05,
+      "loss": 10.3679,
+      "step": 100
+    },
+    {
+      "epoch": 0.004318908180012093,
+      "eval_loss": 10.376812934875488,
+      "eval_runtime": 15.7661,
+      "eval_samples_per_second": 1.522,
+      "eval_steps_per_second": 0.19,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 23154,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 319655116800.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

last-checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5311951ebd78d801b2004d2883a9a33463eb75dabd82156ef0e18165de4dd6c9
+size 5777