Training in progress, step 24500, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/config.json +74 -0
last-checkpoint/generation_config.json +13 -0
last-checkpoint/model.safetensors +3 -0
last-checkpoint/optimizer.pt +3 -0
last-checkpoint/rng_state.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/trainer_state.json +756 -0
last-checkpoint/training_args.bin +3 -0

last-checkpoint/config.json ADDED Viewed

	@@ -0,0 +1,74 @@

+{
+  "_name_or_path": "facebook/bart-large",
+  "activation_dropout": 0.1,
+  "activation_function": "gelu",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "BartForConditionalGeneration"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 0,
+  "classif_dropout": 0.1,
+  "classifier_dropout": 0.0,
+  "d_model": 1024,
+  "decoder_attention_heads": 16,
+  "decoder_ffn_dim": 4096,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 12,
+  "decoder_start_token_id": 2,
+  "dropout": 0.1,
+  "early_stopping": true,
+  "encoder_attention_heads": 16,
+  "encoder_ffn_dim": 4096,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 12,
+  "eos_token_id": 2,
+  "forced_bos_token_id": 0,
+  "forced_eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_position_embeddings": 1024,
+  "model_type": "bart",
+  "no_repeat_ngram_size": 3,
+  "normalize_before": false,
+  "num_beams": 4,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "scale_embedding": false,
+  "task_specific_params": {
+    "summarization": {
+      "length_penalty": 1.0,
+      "max_length": 128,
+      "min_length": 12,
+      "num_beams": 4
+    },
+    "summarization_cnn": {
+      "length_penalty": 2.0,
+      "max_length": 142,
+      "min_length": 56,
+      "num_beams": 4
+    },
+    "summarization_xsum": {
+      "length_penalty": 1.0,
+      "max_length": 62,
+      "min_length": 11,
+      "num_beams": 6
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.0.dev0",
+  "use_cache": true,
+  "vocab_size": 50265
+}

last-checkpoint/generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "decoder_start_token_id": 2,
+  "early_stopping": true,
+  "eos_token_id": 2,
+  "forced_bos_token_id": 0,
+  "forced_eos_token_id": 2,
+  "no_repeat_ngram_size": 3,
+  "num_beams": 4,
+  "pad_token_id": 1,
+  "transformers_version": "4.39.0.dev0"
+}

last-checkpoint/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:834c2455993182ac2454a775464049bea2f2b5240beb06e2feba3fb8c301fa17
+size 1625426996

last-checkpoint/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a87cf4e69c66dbc19de741b9239037530ea89aa7d73f7a96d34e45b16e69901
+size 3250759951

last-checkpoint/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35d0e46e6068287fc01ac45a8b5e3fcdd19c9f45859f7367817e2d3fed4c37b2
+size 14308

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:20c09fe7581dfef8b1ef7b06f78a12ceb23770bd6828d148ea68eb51a6d9d6ff
+size 1064

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,756 @@

+{
+  "best_metric": 1.7116761207580566,
+  "best_model_checkpoint": "/content/drive/MyDrive/W210 Capstone - Lyric Generation with Melody/loaf/models/lyrlen/bart/bart-finetuned-lyrlen-512/checkpoint-22500",
+  "epoch": 2.0416666666666665,
+  "eval_steps": 500,
+  "global_step": 24500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "grad_norm": 2.445735216140747,
+      "learning_rate": 4.8958333333333335e-05,
+      "loss": 2.221,
+      "step": 500
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 1.966707706451416,
+      "eval_runtime": 523.1555,
+      "eval_samples_per_second": 5.734,
+      "eval_steps_per_second": 2.867,
+      "step": 500
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 2.755873680114746,
+      "learning_rate": 4.791666666666667e-05,
+      "loss": 2.0336,
+      "step": 1000
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 1.8762251138687134,
+      "eval_runtime": 521.8304,
+      "eval_samples_per_second": 5.749,
+      "eval_steps_per_second": 2.874,
+      "step": 1000
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 1.6574139595031738,
+      "learning_rate": 4.6875e-05,
+      "loss": 1.9563,
+      "step": 1500
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 1.8565189838409424,
+      "eval_runtime": 523.2148,
+      "eval_samples_per_second": 5.734,
+      "eval_steps_per_second": 2.867,
+      "step": 1500
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 2.1005289554595947,
+      "learning_rate": 4.5833333333333334e-05,
+      "loss": 1.9555,
+      "step": 2000
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 1.8391904830932617,
+      "eval_runtime": 523.6661,
+      "eval_samples_per_second": 5.729,
+      "eval_steps_per_second": 2.864,
+      "step": 2000
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 2.272672414779663,
+      "learning_rate": 4.4791666666666673e-05,
+      "loss": 1.9072,
+      "step": 2500
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 1.8213719129562378,
+      "eval_runtime": 522.7152,
+      "eval_samples_per_second": 5.739,
+      "eval_steps_per_second": 2.87,
+      "step": 2500
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 2.835890769958496,
+      "learning_rate": 4.375e-05,
+      "loss": 1.8796,
+      "step": 3000
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 1.8246040344238281,
+      "eval_runtime": 523.1839,
+      "eval_samples_per_second": 5.734,
+      "eval_steps_per_second": 2.867,
+      "step": 3000
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 3.6644091606140137,
+      "learning_rate": 4.270833333333333e-05,
+      "loss": 1.8955,
+      "step": 3500
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 1.8050193786621094,
+      "eval_runtime": 523.9576,
+      "eval_samples_per_second": 5.726,
+      "eval_steps_per_second": 2.863,
+      "step": 3500
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 3.492926836013794,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 1.8254,
+      "step": 4000
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 1.806920051574707,
+      "eval_runtime": 522.6132,
+      "eval_samples_per_second": 5.74,
+      "eval_steps_per_second": 2.87,
+      "step": 4000
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 2.235563278198242,
+      "learning_rate": 4.0625000000000005e-05,
+      "loss": 1.8518,
+      "step": 4500
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 1.7872947454452515,
+      "eval_runtime": 521.8198,
+      "eval_samples_per_second": 5.749,
+      "eval_steps_per_second": 2.875,
+      "step": 4500
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 3.2742645740509033,
+      "learning_rate": 3.958333333333333e-05,
+      "loss": 1.8471,
+      "step": 5000
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 1.7879706621170044,
+      "eval_runtime": 522.5919,
+      "eval_samples_per_second": 5.741,
+      "eval_steps_per_second": 2.87,
+      "step": 5000
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 2.861785411834717,
+      "learning_rate": 3.854166666666667e-05,
+      "loss": 1.8536,
+      "step": 5500
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 1.773565649986267,
+      "eval_runtime": 522.5748,
+      "eval_samples_per_second": 5.741,
+      "eval_steps_per_second": 2.87,
+      "step": 5500
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 2.342087745666504,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 1.8075,
+      "step": 6000
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 1.7772246599197388,
+      "eval_runtime": 521.8614,
+      "eval_samples_per_second": 5.749,
+      "eval_steps_per_second": 2.874,
+      "step": 6000
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 3.7963709831237793,
+      "learning_rate": 3.6458333333333336e-05,
+      "loss": 1.8143,
+      "step": 6500
+    },
+    {
+      "epoch": 0.54,
+      "eval_loss": 1.7724062204360962,
+      "eval_runtime": 522.2168,
+      "eval_samples_per_second": 5.745,
+      "eval_steps_per_second": 2.872,
+      "step": 6500
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 2.7261409759521484,
+      "learning_rate": 3.541666666666667e-05,
+      "loss": 1.8383,
+      "step": 7000
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 1.7670141458511353,
+      "eval_runtime": 523.5327,
+      "eval_samples_per_second": 5.73,
+      "eval_steps_per_second": 2.865,
+      "step": 7000
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 2.521083354949951,
+      "learning_rate": 3.4375e-05,
+      "loss": 1.746,
+      "step": 7500
+    },
+    {
+      "epoch": 0.62,
+      "eval_loss": 1.774078607559204,
+      "eval_runtime": 522.8622,
+      "eval_samples_per_second": 5.738,
+      "eval_steps_per_second": 2.869,
+      "step": 7500
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 2.275449752807617,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 1.7844,
+      "step": 8000
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 1.7608264684677124,
+      "eval_runtime": 524.0843,
+      "eval_samples_per_second": 5.724,
+      "eval_steps_per_second": 2.862,
+      "step": 8000
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 3.3412251472473145,
+      "learning_rate": 3.229166666666667e-05,
+      "loss": 1.7761,
+      "step": 8500
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 1.7679654359817505,
+      "eval_runtime": 523.8138,
+      "eval_samples_per_second": 5.727,
+      "eval_steps_per_second": 2.864,
+      "step": 8500
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 2.000788688659668,
+      "learning_rate": 3.125e-05,
+      "loss": 1.7367,
+      "step": 9000
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 1.7554887533187866,
+      "eval_runtime": 522.9431,
+      "eval_samples_per_second": 5.737,
+      "eval_steps_per_second": 2.868,
+      "step": 9000
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 2.744258403778076,
+      "learning_rate": 3.0208333333333334e-05,
+      "loss": 1.7656,
+      "step": 9500
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 1.7508151531219482,
+      "eval_runtime": 522.4025,
+      "eval_samples_per_second": 5.743,
+      "eval_steps_per_second": 2.871,
+      "step": 9500
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 2.7946290969848633,
+      "learning_rate": 2.916666666666667e-05,
+      "loss": 1.7467,
+      "step": 10000
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 1.7557835578918457,
+      "eval_runtime": 523.7331,
+      "eval_samples_per_second": 5.728,
+      "eval_steps_per_second": 2.864,
+      "step": 10000
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 2.4864296913146973,
+      "learning_rate": 2.8125000000000003e-05,
+      "loss": 1.7744,
+      "step": 10500
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 1.744908094406128,
+      "eval_runtime": 523.6435,
+      "eval_samples_per_second": 5.729,
+      "eval_steps_per_second": 2.865,
+      "step": 10500
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 2.4293007850646973,
+      "learning_rate": 2.7083333333333332e-05,
+      "loss": 1.7513,
+      "step": 11000
+    },
+    {
+      "epoch": 0.92,
+      "eval_loss": 1.7462434768676758,
+      "eval_runtime": 523.5176,
+      "eval_samples_per_second": 5.73,
+      "eval_steps_per_second": 2.865,
+      "step": 11000
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 2.8948864936828613,
+      "learning_rate": 2.604166666666667e-05,
+      "loss": 1.7482,
+      "step": 11500
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 1.757570505142212,
+      "eval_runtime": 523.9557,
+      "eval_samples_per_second": 5.726,
+      "eval_steps_per_second": 2.863,
+      "step": 11500
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 3.327749490737915,
+      "learning_rate": 2.5e-05,
+      "loss": 1.724,
+      "step": 12000
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.752493143081665,
+      "eval_runtime": 523.6941,
+      "eval_samples_per_second": 5.729,
+      "eval_steps_per_second": 2.864,
+      "step": 12000
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 2.6060996055603027,
+      "learning_rate": 2.3958333333333334e-05,
+      "loss": 1.7043,
+      "step": 12500
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 1.7745699882507324,
+      "eval_runtime": 524.2816,
+      "eval_samples_per_second": 5.722,
+      "eval_steps_per_second": 2.861,
+      "step": 12500
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 3.1417739391326904,
+      "learning_rate": 2.2916666666666667e-05,
+      "loss": 1.6869,
+      "step": 13000
+    },
+    {
+      "epoch": 1.08,
+      "eval_loss": 1.7530784606933594,
+      "eval_runtime": 524.8963,
+      "eval_samples_per_second": 5.715,
+      "eval_steps_per_second": 2.858,
+      "step": 13000
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 2.0913174152374268,
+      "learning_rate": 2.1875e-05,
+      "loss": 1.7405,
+      "step": 13500
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 1.7472872734069824,
+      "eval_runtime": 523.5132,
+      "eval_samples_per_second": 5.731,
+      "eval_steps_per_second": 2.865,
+      "step": 13500
+    },
+    {
+      "epoch": 1.17,
+      "grad_norm": 2.501850128173828,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 1.7343,
+      "step": 14000
+    },
+    {
+      "epoch": 1.17,
+      "eval_loss": 1.73961341381073,
+      "eval_runtime": 523.4238,
+      "eval_samples_per_second": 5.731,
+      "eval_steps_per_second": 2.866,
+      "step": 14000
+    },
+    {
+      "epoch": 1.21,
+      "grad_norm": 2.3180103302001953,
+      "learning_rate": 1.9791666666666665e-05,
+      "loss": 1.649,
+      "step": 14500
+    },
+    {
+      "epoch": 1.21,
+      "eval_loss": 1.738362431526184,
+      "eval_runtime": 522.9782,
+      "eval_samples_per_second": 5.736,
+      "eval_steps_per_second": 2.868,
+      "step": 14500
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 2.6544899940490723,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 1.7208,
+      "step": 15000
+    },
+    {
+      "epoch": 1.25,
+      "eval_loss": 1.7367714643478394,
+      "eval_runtime": 522.0439,
+      "eval_samples_per_second": 5.747,
+      "eval_steps_per_second": 2.873,
+      "step": 15000
+    },
+    {
+      "epoch": 1.29,
+      "grad_norm": 2.5193896293640137,
+      "learning_rate": 1.7708333333333335e-05,
+      "loss": 1.6931,
+      "step": 15500
+    },
+    {
+      "epoch": 1.29,
+      "eval_loss": 1.7404463291168213,
+      "eval_runtime": 523.0385,
+      "eval_samples_per_second": 5.736,
+      "eval_steps_per_second": 2.868,
+      "step": 15500
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 2.3002140522003174,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 1.5941,
+      "step": 16000
+    },
+    {
+      "epoch": 1.33,
+      "eval_loss": 1.8222692012786865,
+      "eval_runtime": 521.374,
+      "eval_samples_per_second": 5.754,
+      "eval_steps_per_second": 2.877,
+      "step": 16000
+    },
+    {
+      "epoch": 1.38,
+      "grad_norm": 3.3250951766967773,
+      "learning_rate": 1.5625e-05,
+      "loss": 1.6651,
+      "step": 16500
+    },
+    {
+      "epoch": 1.38,
+      "eval_loss": 1.728702187538147,
+      "eval_runtime": 522.2011,
+      "eval_samples_per_second": 5.745,
+      "eval_steps_per_second": 2.872,
+      "step": 16500
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 2.0962421894073486,
+      "learning_rate": 1.4583333333333335e-05,
+      "loss": 1.6649,
+      "step": 17000
+    },
+    {
+      "epoch": 1.42,
+      "eval_loss": 1.741267204284668,
+      "eval_runtime": 522.024,
+      "eval_samples_per_second": 5.747,
+      "eval_steps_per_second": 2.873,
+      "step": 17000
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 2.672060012817383,
+      "learning_rate": 1.3541666666666666e-05,
+      "loss": 1.7108,
+      "step": 17500
+    },
+    {
+      "epoch": 1.46,
+      "eval_loss": 1.7304407358169556,
+      "eval_runtime": 521.9513,
+      "eval_samples_per_second": 5.748,
+      "eval_steps_per_second": 2.874,
+      "step": 17500
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 2.358701229095459,
+      "learning_rate": 1.25e-05,
+      "loss": 1.713,
+      "step": 18000
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 1.7263309955596924,
+      "eval_runtime": 521.5686,
+      "eval_samples_per_second": 5.752,
+      "eval_steps_per_second": 2.876,
+      "step": 18000
+    },
+    {
+      "epoch": 1.54,
+      "grad_norm": 3.01208233833313,
+      "learning_rate": 1.1458333333333333e-05,
+      "loss": 1.6866,
+      "step": 18500
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 1.7139294147491455,
+      "eval_runtime": 521.9607,
+      "eval_samples_per_second": 5.748,
+      "eval_steps_per_second": 2.874,
+      "step": 18500
+    },
+    {
+      "epoch": 1.58,
+      "grad_norm": 1.647988200187683,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 1.6461,
+      "step": 19000
+    },
+    {
+      "epoch": 1.58,
+      "eval_loss": 1.7220714092254639,
+      "eval_runtime": 523.0668,
+      "eval_samples_per_second": 5.735,
+      "eval_steps_per_second": 2.868,
+      "step": 19000
+    },
+    {
+      "epoch": 1.62,
+      "grad_norm": 2.259550094604492,
+      "learning_rate": 9.375000000000001e-06,
+      "loss": 1.6886,
+      "step": 19500
+    },
+    {
+      "epoch": 1.62,
+      "eval_loss": 1.7159427404403687,
+      "eval_runtime": 522.0391,
+      "eval_samples_per_second": 5.747,
+      "eval_steps_per_second": 2.873,
+      "step": 19500
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 2.249917507171631,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 1.6511,
+      "step": 20000
+    },
+    {
+      "epoch": 1.67,
+      "eval_loss": 1.7302324771881104,
+      "eval_runtime": 521.3364,
+      "eval_samples_per_second": 5.754,
+      "eval_steps_per_second": 2.877,
+      "step": 20000
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 1.9024745225906372,
+      "learning_rate": 7.2916666666666674e-06,
+      "loss": 1.6626,
+      "step": 20500
+    },
+    {
+      "epoch": 1.71,
+      "eval_loss": 1.7181695699691772,
+      "eval_runtime": 489.9754,
+      "eval_samples_per_second": 6.123,
+      "eval_steps_per_second": 3.061,
+      "step": 20500
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 2.484917640686035,
+      "learning_rate": 6.25e-06,
+      "loss": 1.7052,
+      "step": 21000
+    },
+    {
+      "epoch": 1.75,
+      "eval_loss": 1.716320514678955,
+      "eval_runtime": 489.0607,
+      "eval_samples_per_second": 6.134,
+      "eval_steps_per_second": 3.067,
+      "step": 21000
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 2.4450478553771973,
+      "learning_rate": 5.208333333333334e-06,
+      "loss": 1.6831,
+      "step": 21500
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 1.7168132066726685,
+      "eval_runtime": 489.1379,
+      "eval_samples_per_second": 6.133,
+      "eval_steps_per_second": 3.067,
+      "step": 21500
+    },
+    {
+      "epoch": 1.83,
+      "grad_norm": 2.011652946472168,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 1.6057,
+      "step": 22000
+    },
+    {
+      "epoch": 1.83,
+      "eval_loss": 1.715084195137024,
+      "eval_runtime": 489.2379,
+      "eval_samples_per_second": 6.132,
+      "eval_steps_per_second": 3.066,
+      "step": 22000
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 1.7278447151184082,
+      "learning_rate": 3.125e-06,
+      "loss": 1.6761,
+      "step": 22500
+    },
+    {
+      "epoch": 1.88,
+      "eval_loss": 1.7116761207580566,
+      "eval_runtime": 488.632,
+      "eval_samples_per_second": 6.14,
+      "eval_steps_per_second": 3.07,
+      "step": 22500
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 1.4899113178253174,
+      "learning_rate": 2.0833333333333334e-06,
+      "loss": 1.6668,
+      "step": 23000
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 1.7163901329040527,
+      "eval_runtime": 488.958,
+      "eval_samples_per_second": 6.135,
+      "eval_steps_per_second": 3.068,
+      "step": 23000
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 2.4776082038879395,
+      "learning_rate": 1.0416666666666667e-06,
+      "loss": 1.612,
+      "step": 23500
+    },
+    {
+      "epoch": 1.96,
+      "eval_loss": 1.712184190750122,
+      "eval_runtime": 490.7154,
+      "eval_samples_per_second": 6.114,
+      "eval_steps_per_second": 3.057,
+      "step": 23500
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.9447611570358276,
+      "learning_rate": 0.0,
+      "loss": 1.6617,
+      "step": 24000
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.7131377458572388,
+      "eval_runtime": 488.7943,
+      "eval_samples_per_second": 6.138,
+      "eval_steps_per_second": 3.069,
+      "step": 24000
+    },
+    {
+      "epoch": 2.04,
+      "grad_norm": 1.3564224243164062,
+      "learning_rate": 1.597222222222222e-05,
+      "loss": 1.641,
+      "step": 24500
+    },
+    {
+      "epoch": 2.04,
+      "eval_loss": 1.727720856666565,
+      "eval_runtime": 492.4028,
+      "eval_samples_per_second": 6.093,
+      "eval_steps_per_second": 3.046,
+      "step": 24500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 36000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 5.3094062751744e+16,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

last-checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d59b57789e0457cbbcc4731527b4fc44795495c0fbfa437c26e4d33bbfb9bbb4
+size 5368