Add model an remove ckpt.

Browse files

Files changed (17) hide show

.gitignore +1 -0
checkpoint-5526/optimizer.pt +0 -3
checkpoint-5526/rng_state.pth +0 -3
checkpoint-5526/scheduler.pt +0 -3
checkpoint-5526/trainer_state.json +0 -121
checkpoint-5526/training_args.bin +0 -3
checkpoint-9210/config.json +0 -61
checkpoint-9210/generation_config.json +0 -6
checkpoint-9210/optimizer.pt +0 -3
checkpoint-9210/pytorch_model.bin +0 -3
checkpoint-9210/rng_state.pth +0 -3
checkpoint-9210/scheduler.pt +0 -3
checkpoint-9210/trainer_state.json +0 -189
checkpoint-5526/config.json → config.json +0 -0
checkpoint-5526/generation_config.json → generation_config.json +0 -0
checkpoint-5526/pytorch_model.bin → pytorch_model.bin +0 -0
checkpoint-9210/training_args.bin → training_args.bin +2 -2

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ checkpoint-*/

checkpoint-5526/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1397835223b6207a32dbdc99adfcd45307400821dc1f4b6c0feee00947d8b68b
-size 1980790149

checkpoint-5526/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:177f090776e225c6058120d9a9745d56e588d540b14c97f836a5a195fb3901a4
-size 14575

checkpoint-5526/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:67e332c14e7fb333fad327e11feed99660d09aaf307f258c695c8dc79bc86585
-size 627

checkpoint-5526/trainer_state.json DELETED Viewed

@@ -1,121 +0,0 @@
-{
-  "best_metric": 1.3720556497573853,
-  "best_model_checkpoint": "flan-t5-base-samsum/checkpoint-5526",
-  "epoch": 3.0,
-  "global_step": 5526,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.27,
-      "learning_rate": 4.728555917480999e-05,
-      "loss": 1.4803,
-      "step": 500
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 4.457111834961998e-05,
-      "loss": 1.4552,
-      "step": 1000
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 4.185667752442997e-05,
-      "loss": 1.4398,
-      "step": 1500
-    },
-    {
-      "epoch": 1.0,
-      "eval_gen_len": 17.035409035409035,
-      "eval_loss": 1.3823134899139404,
-      "eval_rouge1": 47.2415,
-      "eval_rouge2": 23.7419,
-      "eval_rougeL": 39.5142,
-      "eval_rougeLsum": 43.4177,
-      "eval_runtime": 74.2005,
-      "eval_samples_per_second": 11.038,
-      "eval_steps_per_second": 1.388,
-      "step": 1842
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 3.914223669923996e-05,
-      "loss": 1.4078,
-      "step": 2000
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 3.642779587404995e-05,
-      "loss": 1.3341,
-      "step": 2500
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 3.3713355048859935e-05,
-      "loss": 1.337,
-      "step": 3000
-    },
-    {
-      "epoch": 1.9,
-      "learning_rate": 3.099891422366993e-05,
-      "loss": 1.3564,
-      "step": 3500
-    },
-    {
-      "epoch": 2.0,
-      "eval_gen_len": 17.307692307692307,
-      "eval_loss": 1.3747227191925049,
-      "eval_rouge1": 46.833,
-      "eval_rouge2": 23.308,
-      "eval_rougeL": 39.2838,
-      "eval_rougeLsum": 42.9821,
-      "eval_runtime": 74.9443,
-      "eval_samples_per_second": 10.928,
-      "eval_steps_per_second": 1.374,
-      "step": 3684
-    },
-    {
-      "epoch": 2.17,
-      "learning_rate": 2.8284473398479917e-05,
-      "loss": 1.3162,
-      "step": 4000
-    },
-    {
-      "epoch": 2.44,
-      "learning_rate": 2.5570032573289905e-05,
-      "loss": 1.2739,
-      "step": 4500
-    },
-    {
-      "epoch": 2.71,
-      "learning_rate": 2.2855591748099893e-05,
-      "loss": 1.277,
-      "step": 5000
-    },
-    {
-      "epoch": 2.99,
-      "learning_rate": 2.0141150922909884e-05,
-      "loss": 1.2776,
-      "step": 5500
-    },
-    {
-      "epoch": 3.0,
-      "eval_gen_len": 17.24053724053724,
-      "eval_loss": 1.3720556497573853,
-      "eval_rouge1": 47.5,
-      "eval_rouge2": 23.9237,
-      "eval_rougeL": 40.0646,
-      "eval_rougeLsum": 43.6387,
-      "eval_runtime": 74.4867,
-      "eval_samples_per_second": 10.995,
-      "eval_steps_per_second": 1.383,
-      "step": 5526
-    }
-  ],
-  "max_steps": 9210,
-  "num_train_epochs": 5,
-  "total_flos": 3.026353594879181e+16,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoint-5526/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9945552c747ee998aaff412e61bf9ed72af622c7f04fa9ae25709456833f3bd8
-size 3643

checkpoint-9210/config.json DELETED Viewed

@@ -1,61 +0,0 @@
-{
-  "_name_or_path": "google/flan-t5-base",
-  "architectures": [
-    "T5ForConditionalGeneration"
-  ],
-  "d_ff": 2048,
-  "d_kv": 64,
-  "d_model": 768,
-  "decoder_start_token_id": 0,
-  "dense_act_fn": "gelu_new",
-  "dropout_rate": 0.1,
-  "eos_token_id": 1,
-  "feed_forward_proj": "gated-gelu",
-  "initializer_factor": 1.0,
-  "is_encoder_decoder": true,
-  "is_gated_act": true,
-  "layer_norm_epsilon": 1e-06,
-  "model_type": "t5",
-  "n_positions": 512,
-  "num_decoder_layers": 12,
-  "num_heads": 12,
-  "num_layers": 12,
-  "output_past": true,
-  "pad_token_id": 0,
-  "relative_attention_max_distance": 128,
-  "relative_attention_num_buckets": 32,
-  "task_specific_params": {
-    "summarization": {
-      "early_stopping": true,
-      "length_penalty": 2.0,
-      "max_length": 200,
-      "min_length": 30,
-      "no_repeat_ngram_size": 3,
-      "num_beams": 4,
-      "prefix": "summarize: "
-    },
-    "translation_en_to_de": {
-      "early_stopping": true,
-      "max_length": 300,
-      "num_beams": 4,
-      "prefix": "translate English to German: "
-    },
-    "translation_en_to_fr": {
-      "early_stopping": true,
-      "max_length": 300,
-      "num_beams": 4,
-      "prefix": "translate English to French: "
-    },
-    "translation_en_to_ro": {
-      "early_stopping": true,
-      "max_length": 300,
-      "num_beams": 4,
-      "prefix": "translate English to Romanian: "
-    }
-  },
-  "tie_word_embeddings": false,
-  "torch_dtype": "float32",
-  "transformers_version": "4.27.4",
-  "use_cache": true,
-  "vocab_size": 32128
-}

checkpoint-9210/generation_config.json DELETED Viewed

@@ -1,6 +0,0 @@
-{
-  "decoder_start_token_id": 0,
-  "eos_token_id": 1,
-  "pad_token_id": 0,
-  "transformers_version": "4.27.4"
-}

checkpoint-9210/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:7a43ad9e9833b49ec56f72baff113a0d1761b7d63d87f3227e0e8fb4cbbfc125
-size 1980790149

checkpoint-9210/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e8aa1df3c66854ea36cc36214186c8782f29dccd11dccd45abe2c05a71cf1fbf
-size 990408885

checkpoint-9210/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:22ff991c0a65e33ec5fe1c574d60db40b3e082781cb2cd3c0d21a9f06d131188
-size 14575

checkpoint-9210/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:81cdb2c1c20df01faadc95a4b03fdefbf2d02893abb39c4f93c6a86a42372740
-size 627

checkpoint-9210/trainer_state.json DELETED Viewed

@@ -1,189 +0,0 @@
-{
-  "best_metric": 1.3720556497573853,
-  "best_model_checkpoint": "flan-t5-base-samsum/checkpoint-5526",
-  "epoch": 5.0,
-  "global_step": 9210,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.27,
-      "learning_rate": 4.728555917480999e-05,
-      "loss": 1.4803,
-      "step": 500
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 4.457111834961998e-05,
-      "loss": 1.4552,
-      "step": 1000
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 4.185667752442997e-05,
-      "loss": 1.4398,
-      "step": 1500
-    },
-    {
-      "epoch": 1.0,
-      "eval_gen_len": 17.035409035409035,
-      "eval_loss": 1.3823134899139404,
-      "eval_rouge1": 47.2415,
-      "eval_rouge2": 23.7419,
-      "eval_rougeL": 39.5142,
-      "eval_rougeLsum": 43.4177,
-      "eval_runtime": 74.2005,
-      "eval_samples_per_second": 11.038,
-      "eval_steps_per_second": 1.388,
-      "step": 1842
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 3.914223669923996e-05,
-      "loss": 1.4078,
-      "step": 2000
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 3.642779587404995e-05,
-      "loss": 1.3341,
-      "step": 2500
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 3.3713355048859935e-05,
-      "loss": 1.337,
-      "step": 3000
-    },
-    {
-      "epoch": 1.9,
-      "learning_rate": 3.099891422366993e-05,
-      "loss": 1.3564,
-      "step": 3500
-    },
-    {
-      "epoch": 2.0,
-      "eval_gen_len": 17.307692307692307,
-      "eval_loss": 1.3747227191925049,
-      "eval_rouge1": 46.833,
-      "eval_rouge2": 23.308,
-      "eval_rougeL": 39.2838,
-      "eval_rougeLsum": 42.9821,
-      "eval_runtime": 74.9443,
-      "eval_samples_per_second": 10.928,
-      "eval_steps_per_second": 1.374,
-      "step": 3684
-    },
-    {
-      "epoch": 2.17,
-      "learning_rate": 2.8284473398479917e-05,
-      "loss": 1.3162,
-      "step": 4000
-    },
-    {
-      "epoch": 2.44,
-      "learning_rate": 2.5570032573289905e-05,
-      "loss": 1.2739,
-      "step": 4500
-    },
-    {
-      "epoch": 2.71,
-      "learning_rate": 2.2855591748099893e-05,
-      "loss": 1.277,
-      "step": 5000
-    },
-    {
-      "epoch": 2.99,
-      "learning_rate": 2.0141150922909884e-05,
-      "loss": 1.2776,
-      "step": 5500
-    },
-    {
-      "epoch": 3.0,
-      "eval_gen_len": 17.24053724053724,
-      "eval_loss": 1.3720556497573853,
-      "eval_rouge1": 47.5,
-      "eval_rouge2": 23.9237,
-      "eval_rougeL": 40.0646,
-      "eval_rougeLsum": 43.6387,
-      "eval_runtime": 74.4867,
-      "eval_samples_per_second": 10.995,
-      "eval_steps_per_second": 1.383,
-      "step": 5526
-    },
-    {
-      "epoch": 3.26,
-      "learning_rate": 1.742671009771987e-05,
-      "loss": 1.2209,
-      "step": 6000
-    },
-    {
-      "epoch": 3.53,
-      "learning_rate": 1.471226927252986e-05,
-      "loss": 1.2427,
-      "step": 6500
-    },
-    {
-      "epoch": 3.8,
-      "learning_rate": 1.1997828447339848e-05,
-      "loss": 1.2345,
-      "step": 7000
-    },
-    {
-      "epoch": 4.0,
-      "eval_gen_len": 17.245421245421245,
-      "eval_loss": 1.3743723630905151,
-      "eval_rouge1": 47.5599,
-      "eval_rouge2": 23.9714,
-      "eval_rougeL": 40.06,
-      "eval_rougeLsum": 43.8107,
-      "eval_runtime": 74.1957,
-      "eval_samples_per_second": 11.038,
-      "eval_steps_per_second": 1.388,
-      "step": 7368
-    },
-    {
-      "epoch": 4.07,
-      "learning_rate": 9.283387622149838e-06,
-      "loss": 1.2388,
-      "step": 7500
-    },
-    {
-      "epoch": 4.34,
-      "learning_rate": 6.568946796959827e-06,
-      "loss": 1.2124,
-      "step": 8000
-    },
-    {
-      "epoch": 4.61,
-      "learning_rate": 3.854505971769816e-06,
-      "loss": 1.196,
-      "step": 8500
-    },
-    {
-      "epoch": 4.89,
-      "learning_rate": 1.1400651465798045e-06,
-      "loss": 1.194,
-      "step": 9000
-    },
-    {
-      "epoch": 5.0,
-      "eval_gen_len": 17.246642246642246,
-      "eval_loss": 1.376030683517456,
-      "eval_rouge1": 47.7868,
-      "eval_rouge2": 24.0949,
-      "eval_rougeL": 40.2021,
-      "eval_rougeLsum": 43.789,
-      "eval_runtime": 74.584,
-      "eval_samples_per_second": 10.981,
-      "eval_steps_per_second": 1.381,
-      "step": 9210
-    }
-  ],
-  "max_steps": 9210,
-  "num_train_epochs": 5,
-  "total_flos": 5.043922658131968e+16,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoint-5526/config.json → config.json RENAMED Viewed

File without changes

checkpoint-5526/generation_config.json → generation_config.json RENAMED Viewed

File without changes

checkpoint-5526/pytorch_model.bin → pytorch_model.bin RENAMED Viewed

File without changes

checkpoint-9210/training_args.bin → training_args.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9945552c747ee998aaff412e61bf9ed72af622c7f04fa9ae25709456833f3bd8
-size 3643

 version https://git-lfs.github.com/spec/v1
+oid sha256:7dd2de24479f8b2ea417955eab126e916f7c203b800af18a8eb7c78b9f902135
+size 3707