commit files to HF hub

Browse files

Files changed (11) hide show

config.json +28 -0
generation_config.json +6 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +16 -0
tokenizer.json +0 -0
tokenizer_config.json +238 -0
trainer_state.json +747 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "allenai/OLMo-1B-hf",
+  "architectures": [
+    "OlmoForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "clip_qkv": null,
+  "eos_token_id": 50279,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 2048,
+  "model_type": "olmo",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 16,
+  "num_key_value_heads": 16,
+  "pad_token_id": 1,
+  "pretraining_tp": 1,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.42.4",
+  "use_cache": true,
+  "vocab_size": 50304
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "eos_token_id": 0,
+  "pad_token_id": 1,
+  "transformers_version": "4.42.4"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:065e76a6275106cdc5f6a58708b84eb01ae1085daa1e09148f6e82a9389199a8
+size 2353541856

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f26a56dae24c4633c1ae2f9d515ad93823e79e05f85b1d975d4cd92f380de2d1
+size 4707154082

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25c948628ba1804e0dc0e988e547ad05d27e9a4f2682e0d6f6481f21ae112fc2
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4cc002878caf410f4512214f09bde4cf5cc8e7e79665078990a7c6d6fdb178ee
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|padding|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,238 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "|||IP_ADDRESS|||",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "1": {
+      "content": "<|padding|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50254": {
+      "content": "                        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50255": {
+      "content": "                       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50256": {
+      "content": "                      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50257": {
+      "content": "                     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50258": {
+      "content": "                    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50259": {
+      "content": "                   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50260": {
+      "content": "                  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50261": {
+      "content": "                 ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50262": {
+      "content": "                ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50263": {
+      "content": "               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50264": {
+      "content": "              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50265": {
+      "content": "             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50266": {
+      "content": "            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50267": {
+      "content": "           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50268": {
+      "content": "          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50269": {
+      "content": "         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50270": {
+      "content": "        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50271": {
+      "content": "       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50272": {
+      "content": "      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50273": {
+      "content": "     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50274": {
+      "content": "    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50275": {
+      "content": "   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50276": {
+      "content": "  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50277": {
+      "content": "|||EMAIL_ADDRESS|||",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50278": {
+      "content": "|||PHONE_NUMBER|||",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50279": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": null,
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|padding|>",
+  "tokenizer_class": "GPTNeoXTokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,747 @@

+{
+  "best_metric": 1.719967246055603,
+  "best_model_checkpoint": "ckpts/sft_OLMo-1B-hf/checkpoint-940",
+  "epoch": 4.96042216358839,
+  "eval_steps": 20,
+  "global_step": 940,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.10554089709762533,
+      "grad_norm": 10.3125,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 2.4799,
+      "step": 20
+    },
+    {
+      "epoch": 0.10554089709762533,
+      "eval_loss": 2.3184142112731934,
+      "eval_runtime": 4.0729,
+      "eval_samples_per_second": 49.105,
+      "eval_steps_per_second": 12.276,
+      "step": 20
+    },
+    {
+      "epoch": 0.21108179419525067,
+      "grad_norm": 7.46875,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 2.2916,
+      "step": 40
+    },
+    {
+      "epoch": 0.21108179419525067,
+      "eval_loss": 2.265637159347534,
+      "eval_runtime": 4.034,
+      "eval_samples_per_second": 49.579,
+      "eval_steps_per_second": 12.395,
+      "step": 40
+    },
+    {
+      "epoch": 0.316622691292876,
+      "grad_norm": 7.1875,
+      "learning_rate": 1e-05,
+      "loss": 2.2737,
+      "step": 60
+    },
+    {
+      "epoch": 0.316622691292876,
+      "eval_loss": 2.2540640830993652,
+      "eval_runtime": 3.9951,
+      "eval_samples_per_second": 50.062,
+      "eval_steps_per_second": 12.515,
+      "step": 60
+    },
+    {
+      "epoch": 0.42216358839050133,
+      "grad_norm": 7.25,
+      "learning_rate": 1e-05,
+      "loss": 2.1889,
+      "step": 80
+    },
+    {
+      "epoch": 0.42216358839050133,
+      "eval_loss": 2.2447378635406494,
+      "eval_runtime": 4.3965,
+      "eval_samples_per_second": 45.491,
+      "eval_steps_per_second": 11.373,
+      "step": 80
+    },
+    {
+      "epoch": 0.5277044854881267,
+      "grad_norm": 8.0,
+      "learning_rate": 1e-05,
+      "loss": 2.2005,
+      "step": 100
+    },
+    {
+      "epoch": 0.5277044854881267,
+      "eval_loss": 2.225715398788452,
+      "eval_runtime": 4.0633,
+      "eval_samples_per_second": 49.221,
+      "eval_steps_per_second": 12.305,
+      "step": 100
+    },
+    {
+      "epoch": 0.633245382585752,
+      "grad_norm": 7.46875,
+      "learning_rate": 1e-05,
+      "loss": 2.1915,
+      "step": 120
+    },
+    {
+      "epoch": 0.633245382585752,
+      "eval_loss": 2.208789587020874,
+      "eval_runtime": 4.4371,
+      "eval_samples_per_second": 45.075,
+      "eval_steps_per_second": 11.269,
+      "step": 120
+    },
+    {
+      "epoch": 0.7387862796833773,
+      "grad_norm": 7.875,
+      "learning_rate": 1e-05,
+      "loss": 2.2115,
+      "step": 140
+    },
+    {
+      "epoch": 0.7387862796833773,
+      "eval_loss": 2.189687728881836,
+      "eval_runtime": 4.427,
+      "eval_samples_per_second": 45.177,
+      "eval_steps_per_second": 11.294,
+      "step": 140
+    },
+    {
+      "epoch": 0.8443271767810027,
+      "grad_norm": 7.28125,
+      "learning_rate": 1e-05,
+      "loss": 2.1754,
+      "step": 160
+    },
+    {
+      "epoch": 0.8443271767810027,
+      "eval_loss": 2.1662068367004395,
+      "eval_runtime": 4.4352,
+      "eval_samples_per_second": 45.094,
+      "eval_steps_per_second": 11.273,
+      "step": 160
+    },
+    {
+      "epoch": 0.9498680738786279,
+      "grad_norm": 7.4375,
+      "learning_rate": 1e-05,
+      "loss": 2.1529,
+      "step": 180
+    },
+    {
+      "epoch": 0.9498680738786279,
+      "eval_loss": 2.151796340942383,
+      "eval_runtime": 4.578,
+      "eval_samples_per_second": 43.688,
+      "eval_steps_per_second": 10.922,
+      "step": 180
+    },
+    {
+      "epoch": 1.0554089709762533,
+      "grad_norm": 7.4375,
+      "learning_rate": 1e-05,
+      "loss": 2.0596,
+      "step": 200
+    },
+    {
+      "epoch": 1.0554089709762533,
+      "eval_loss": 2.150334119796753,
+      "eval_runtime": 4.3064,
+      "eval_samples_per_second": 46.443,
+      "eval_steps_per_second": 11.611,
+      "step": 200
+    },
+    {
+      "epoch": 1.1609498680738786,
+      "grad_norm": 8.3125,
+      "learning_rate": 1e-05,
+      "loss": 1.9336,
+      "step": 220
+    },
+    {
+      "epoch": 1.1609498680738786,
+      "eval_loss": 2.138848066329956,
+      "eval_runtime": 4.7845,
+      "eval_samples_per_second": 41.802,
+      "eval_steps_per_second": 10.45,
+      "step": 220
+    },
+    {
+      "epoch": 1.266490765171504,
+      "grad_norm": 8.125,
+      "learning_rate": 1e-05,
+      "loss": 1.917,
+      "step": 240
+    },
+    {
+      "epoch": 1.266490765171504,
+      "eval_loss": 2.1307833194732666,
+      "eval_runtime": 4.549,
+      "eval_samples_per_second": 43.966,
+      "eval_steps_per_second": 10.992,
+      "step": 240
+    },
+    {
+      "epoch": 1.3720316622691293,
+      "grad_norm": 8.375,
+      "learning_rate": 1e-05,
+      "loss": 1.9214,
+      "step": 260
+    },
+    {
+      "epoch": 1.3720316622691293,
+      "eval_loss": 2.11213755607605,
+      "eval_runtime": 4.4528,
+      "eval_samples_per_second": 44.916,
+      "eval_steps_per_second": 11.229,
+      "step": 260
+    },
+    {
+      "epoch": 1.4775725593667546,
+      "grad_norm": 8.25,
+      "learning_rate": 1e-05,
+      "loss": 1.9631,
+      "step": 280
+    },
+    {
+      "epoch": 1.4775725593667546,
+      "eval_loss": 2.0881500244140625,
+      "eval_runtime": 4.489,
+      "eval_samples_per_second": 44.553,
+      "eval_steps_per_second": 11.138,
+      "step": 280
+    },
+    {
+      "epoch": 1.58311345646438,
+      "grad_norm": 8.5,
+      "learning_rate": 1e-05,
+      "loss": 1.8888,
+      "step": 300
+    },
+    {
+      "epoch": 1.58311345646438,
+      "eval_loss": 2.0727522373199463,
+      "eval_runtime": 4.6234,
+      "eval_samples_per_second": 43.258,
+      "eval_steps_per_second": 10.815,
+      "step": 300
+    },
+    {
+      "epoch": 1.6886543535620053,
+      "grad_norm": 8.75,
+      "learning_rate": 1e-05,
+      "loss": 1.8634,
+      "step": 320
+    },
+    {
+      "epoch": 1.6886543535620053,
+      "eval_loss": 2.0583410263061523,
+      "eval_runtime": 4.3979,
+      "eval_samples_per_second": 45.476,
+      "eval_steps_per_second": 11.369,
+      "step": 320
+    },
+    {
+      "epoch": 1.7941952506596306,
+      "grad_norm": 9.625,
+      "learning_rate": 1e-05,
+      "loss": 1.8716,
+      "step": 340
+    },
+    {
+      "epoch": 1.7941952506596306,
+      "eval_loss": 2.0440073013305664,
+      "eval_runtime": 4.4336,
+      "eval_samples_per_second": 45.111,
+      "eval_steps_per_second": 11.278,
+      "step": 340
+    },
+    {
+      "epoch": 1.899736147757256,
+      "grad_norm": 8.625,
+      "learning_rate": 1e-05,
+      "loss": 1.8626,
+      "step": 360
+    },
+    {
+      "epoch": 1.899736147757256,
+      "eval_loss": 2.027642011642456,
+      "eval_runtime": 4.5994,
+      "eval_samples_per_second": 43.484,
+      "eval_steps_per_second": 10.871,
+      "step": 360
+    },
+    {
+      "epoch": 2.005277044854881,
+      "grad_norm": 10.0625,
+      "learning_rate": 1e-05,
+      "loss": 1.8374,
+      "step": 380
+    },
+    {
+      "epoch": 2.005277044854881,
+      "eval_loss": 2.023581027984619,
+      "eval_runtime": 4.513,
+      "eval_samples_per_second": 44.316,
+      "eval_steps_per_second": 11.079,
+      "step": 380
+    },
+    {
+      "epoch": 2.1108179419525066,
+      "grad_norm": 10.3125,
+      "learning_rate": 1e-05,
+      "loss": 1.6156,
+      "step": 400
+    },
+    {
+      "epoch": 2.1108179419525066,
+      "eval_loss": 2.034921169281006,
+      "eval_runtime": 4.3548,
+      "eval_samples_per_second": 45.926,
+      "eval_steps_per_second": 11.482,
+      "step": 400
+    },
+    {
+      "epoch": 2.216358839050132,
+      "grad_norm": 10.5,
+      "learning_rate": 1e-05,
+      "loss": 1.571,
+      "step": 420
+    },
+    {
+      "epoch": 2.216358839050132,
+      "eval_loss": 2.0253899097442627,
+      "eval_runtime": 4.4896,
+      "eval_samples_per_second": 44.547,
+      "eval_steps_per_second": 11.137,
+      "step": 420
+    },
+    {
+      "epoch": 2.321899736147757,
+      "grad_norm": 10.9375,
+      "learning_rate": 1e-05,
+      "loss": 1.5824,
+      "step": 440
+    },
+    {
+      "epoch": 2.321899736147757,
+      "eval_loss": 2.000455141067505,
+      "eval_runtime": 4.3294,
+      "eval_samples_per_second": 46.195,
+      "eval_steps_per_second": 11.549,
+      "step": 440
+    },
+    {
+      "epoch": 2.4274406332453826,
+      "grad_norm": 11.25,
+      "learning_rate": 1e-05,
+      "loss": 1.532,
+      "step": 460
+    },
+    {
+      "epoch": 2.4274406332453826,
+      "eval_loss": 2.0012362003326416,
+      "eval_runtime": 4.4248,
+      "eval_samples_per_second": 45.2,
+      "eval_steps_per_second": 11.3,
+      "step": 460
+    },
+    {
+      "epoch": 2.532981530343008,
+      "grad_norm": 10.875,
+      "learning_rate": 1e-05,
+      "loss": 1.538,
+      "step": 480
+    },
+    {
+      "epoch": 2.532981530343008,
+      "eval_loss": 1.9685580730438232,
+      "eval_runtime": 4.6986,
+      "eval_samples_per_second": 42.566,
+      "eval_steps_per_second": 10.642,
+      "step": 480
+    },
+    {
+      "epoch": 2.638522427440633,
+      "grad_norm": 11.4375,
+      "learning_rate": 1e-05,
+      "loss": 1.5482,
+      "step": 500
+    },
+    {
+      "epoch": 2.638522427440633,
+      "eval_loss": 1.945511817932129,
+      "eval_runtime": 4.3643,
+      "eval_samples_per_second": 45.826,
+      "eval_steps_per_second": 11.457,
+      "step": 500
+    },
+    {
+      "epoch": 2.7440633245382586,
+      "grad_norm": 11.5625,
+      "learning_rate": 1e-05,
+      "loss": 1.5028,
+      "step": 520
+    },
+    {
+      "epoch": 2.7440633245382586,
+      "eval_loss": 1.9389147758483887,
+      "eval_runtime": 4.5184,
+      "eval_samples_per_second": 44.263,
+      "eval_steps_per_second": 11.066,
+      "step": 520
+    },
+    {
+      "epoch": 2.849604221635884,
+      "grad_norm": 12.5625,
+      "learning_rate": 1e-05,
+      "loss": 1.4947,
+      "step": 540
+    },
+    {
+      "epoch": 2.849604221635884,
+      "eval_loss": 1.9430372714996338,
+      "eval_runtime": 4.4992,
+      "eval_samples_per_second": 44.453,
+      "eval_steps_per_second": 11.113,
+      "step": 540
+    },
+    {
+      "epoch": 2.955145118733509,
+      "grad_norm": 11.9375,
+      "learning_rate": 1e-05,
+      "loss": 1.5243,
+      "step": 560
+    },
+    {
+      "epoch": 2.955145118733509,
+      "eval_loss": 1.9145066738128662,
+      "eval_runtime": 4.4679,
+      "eval_samples_per_second": 44.764,
+      "eval_steps_per_second": 11.191,
+      "step": 560
+    },
+    {
+      "epoch": 3.0606860158311346,
+      "grad_norm": 15.0,
+      "learning_rate": 1e-05,
+      "loss": 1.3297,
+      "step": 580
+    },
+    {
+      "epoch": 3.0606860158311346,
+      "eval_loss": 1.9249849319458008,
+      "eval_runtime": 4.5014,
+      "eval_samples_per_second": 44.43,
+      "eval_steps_per_second": 11.108,
+      "step": 580
+    },
+    {
+      "epoch": 3.16622691292876,
+      "grad_norm": 13.25,
+      "learning_rate": 1e-05,
+      "loss": 1.21,
+      "step": 600
+    },
+    {
+      "epoch": 3.16622691292876,
+      "eval_loss": 1.9324084520339966,
+      "eval_runtime": 4.7117,
+      "eval_samples_per_second": 42.447,
+      "eval_steps_per_second": 10.612,
+      "step": 600
+    },
+    {
+      "epoch": 3.271767810026385,
+      "grad_norm": 15.875,
+      "learning_rate": 1e-05,
+      "loss": 1.2001,
+      "step": 620
+    },
+    {
+      "epoch": 3.271767810026385,
+      "eval_loss": 1.9431959390640259,
+      "eval_runtime": 4.4958,
+      "eval_samples_per_second": 44.486,
+      "eval_steps_per_second": 11.121,
+      "step": 620
+    },
+    {
+      "epoch": 3.3773087071240107,
+      "grad_norm": 15.125,
+      "learning_rate": 1e-05,
+      "loss": 1.1686,
+      "step": 640
+    },
+    {
+      "epoch": 3.3773087071240107,
+      "eval_loss": 1.9009323120117188,
+      "eval_runtime": 4.3205,
+      "eval_samples_per_second": 46.291,
+      "eval_steps_per_second": 11.573,
+      "step": 640
+    },
+    {
+      "epoch": 3.4828496042216357,
+      "grad_norm": 16.5,
+      "learning_rate": 1e-05,
+      "loss": 1.1798,
+      "step": 660
+    },
+    {
+      "epoch": 3.4828496042216357,
+      "eval_loss": 1.8920202255249023,
+      "eval_runtime": 4.5772,
+      "eval_samples_per_second": 43.695,
+      "eval_steps_per_second": 10.924,
+      "step": 660
+    },
+    {
+      "epoch": 3.588390501319261,
+      "grad_norm": 14.1875,
+      "learning_rate": 1e-05,
+      "loss": 1.197,
+      "step": 680
+    },
+    {
+      "epoch": 3.588390501319261,
+      "eval_loss": 1.8691601753234863,
+      "eval_runtime": 4.5889,
+      "eval_samples_per_second": 43.584,
+      "eval_steps_per_second": 10.896,
+      "step": 680
+    },
+    {
+      "epoch": 3.6939313984168867,
+      "grad_norm": 15.25,
+      "learning_rate": 1e-05,
+      "loss": 1.1745,
+      "step": 700
+    },
+    {
+      "epoch": 3.6939313984168867,
+      "eval_loss": 1.8563519716262817,
+      "eval_runtime": 4.09,
+      "eval_samples_per_second": 48.9,
+      "eval_steps_per_second": 12.225,
+      "step": 700
+    },
+    {
+      "epoch": 3.7994722955145117,
+      "grad_norm": 16.125,
+      "learning_rate": 1e-05,
+      "loss": 1.1083,
+      "step": 720
+    },
+    {
+      "epoch": 3.7994722955145117,
+      "eval_loss": 1.8388882875442505,
+      "eval_runtime": 4.1971,
+      "eval_samples_per_second": 47.653,
+      "eval_steps_per_second": 11.913,
+      "step": 720
+    },
+    {
+      "epoch": 3.905013192612137,
+      "grad_norm": 16.25,
+      "learning_rate": 1e-05,
+      "loss": 1.1325,
+      "step": 740
+    },
+    {
+      "epoch": 3.905013192612137,
+      "eval_loss": 1.8317779302597046,
+      "eval_runtime": 4.353,
+      "eval_samples_per_second": 45.945,
+      "eval_steps_per_second": 11.486,
+      "step": 740
+    },
+    {
+      "epoch": 4.010554089709762,
+      "grad_norm": 16.25,
+      "learning_rate": 1e-05,
+      "loss": 1.0731,
+      "step": 760
+    },
+    {
+      "epoch": 4.010554089709762,
+      "eval_loss": 1.8252906799316406,
+      "eval_runtime": 4.5472,
+      "eval_samples_per_second": 43.983,
+      "eval_steps_per_second": 10.996,
+      "step": 760
+    },
+    {
+      "epoch": 4.116094986807388,
+      "grad_norm": 15.75,
+      "learning_rate": 1e-05,
+      "loss": 0.8763,
+      "step": 780
+    },
+    {
+      "epoch": 4.116094986807388,
+      "eval_loss": 1.8407686948776245,
+      "eval_runtime": 4.341,
+      "eval_samples_per_second": 46.073,
+      "eval_steps_per_second": 11.518,
+      "step": 780
+    },
+    {
+      "epoch": 4.221635883905013,
+      "grad_norm": 19.25,
+      "learning_rate": 1e-05,
+      "loss": 0.8789,
+      "step": 800
+    },
+    {
+      "epoch": 4.221635883905013,
+      "eval_loss": 1.836584210395813,
+      "eval_runtime": 4.5537,
+      "eval_samples_per_second": 43.921,
+      "eval_steps_per_second": 10.98,
+      "step": 800
+    },
+    {
+      "epoch": 4.327176781002638,
+      "grad_norm": 18.625,
+      "learning_rate": 1e-05,
+      "loss": 0.8585,
+      "step": 820
+    },
+    {
+      "epoch": 4.327176781002638,
+      "eval_loss": 1.826670527458191,
+      "eval_runtime": 4.5393,
+      "eval_samples_per_second": 44.06,
+      "eval_steps_per_second": 11.015,
+      "step": 820
+    },
+    {
+      "epoch": 4.432717678100264,
+      "grad_norm": 18.0,
+      "learning_rate": 1e-05,
+      "loss": 0.7994,
+      "step": 840
+    },
+    {
+      "epoch": 4.432717678100264,
+      "eval_loss": 1.823104977607727,
+      "eval_runtime": 4.5835,
+      "eval_samples_per_second": 43.635,
+      "eval_steps_per_second": 10.909,
+      "step": 840
+    },
+    {
+      "epoch": 4.538258575197889,
+      "grad_norm": 17.125,
+      "learning_rate": 1e-05,
+      "loss": 0.828,
+      "step": 860
+    },
+    {
+      "epoch": 4.538258575197889,
+      "eval_loss": 1.7835866212844849,
+      "eval_runtime": 4.4222,
+      "eval_samples_per_second": 45.227,
+      "eval_steps_per_second": 11.307,
+      "step": 860
+    },
+    {
+      "epoch": 4.643799472295514,
+      "grad_norm": 15.8125,
+      "learning_rate": 1e-05,
+      "loss": 0.8055,
+      "step": 880
+    },
+    {
+      "epoch": 4.643799472295514,
+      "eval_loss": 1.776289939880371,
+      "eval_runtime": 4.451,
+      "eval_samples_per_second": 44.934,
+      "eval_steps_per_second": 11.234,
+      "step": 880
+    },
+    {
+      "epoch": 4.74934036939314,
+      "grad_norm": 16.125,
+      "learning_rate": 1e-05,
+      "loss": 0.8072,
+      "step": 900
+    },
+    {
+      "epoch": 4.74934036939314,
+      "eval_loss": 1.7724196910858154,
+      "eval_runtime": 4.6227,
+      "eval_samples_per_second": 43.264,
+      "eval_steps_per_second": 10.816,
+      "step": 900
+    },
+    {
+      "epoch": 4.854881266490765,
+      "grad_norm": 15.1875,
+      "learning_rate": 1e-05,
+      "loss": 0.8029,
+      "step": 920
+    },
+    {
+      "epoch": 4.854881266490765,
+      "eval_loss": 1.7451767921447754,
+      "eval_runtime": 4.5459,
+      "eval_samples_per_second": 43.995,
+      "eval_steps_per_second": 10.999,
+      "step": 920
+    },
+    {
+      "epoch": 4.96042216358839,
+      "grad_norm": 19.125,
+      "learning_rate": 1e-05,
+      "loss": 0.7929,
+      "step": 940
+    },
+    {
+      "epoch": 4.96042216358839,
+      "eval_loss": 1.719967246055603,
+      "eval_runtime": 4.7451,
+      "eval_samples_per_second": 42.148,
+      "eval_steps_per_second": 10.537,
+      "step": 940
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 9450,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 50,
+  "save_steps": 20,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.968166912425984e+16,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb4a32814ba25e12ecc62e4a739c1b0c729cc81da6b34aa04e6621b6613c85ff
+size 5368