huggingartists

Browse files

Files changed (11) hide show

README.md +3 -3
config.json +1 -1
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +2 -2
scheduler.pt +1 -1
tokenizer_config.json +1 -1
trainer_state.json +1211 -7
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/slava-kpss")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/foqrsz9e/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Слава КПСС (Slava KPSS)'s lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/1w16q2jl) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/1w16q2jl/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/slava-kpss")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/2f2r3u3b/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Слава КПСС (Slava KPSS)'s lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/pecxkpae) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/pecxkpae/artifacts) is logged and versioned.
 ## How to use

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "gpt2",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

 {
+  "_name_or_path": "huggingartists/slava-kpss",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 1.~~7264798879623413~~, "eval_runtime": 80.~~0703~~, "eval_samples_per_second": 20.~~482~~, "eval_steps_per_second": 2.56, "epoch": 1.0}


1	+ {"eval_loss": 1.6512105464935303, "eval_runtime": 68.8621, "eval_samples_per_second": 20.476, "eval_steps_per_second": 2.57, "epoch": 2.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:337deda3e932cb8b9f9f45178fc4d42a4910182f8b2421baf2b41f81f8b5ed78
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:99ac3f00b077f08b809d4c3048c2a2dd6f5e179f6d39456c91ba6fd59ca92749
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b98963ca82fe7af24587df78468bdd55174ccee367ffeb555b4c0f8139cb2bc
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e1f79ca37b89ce49476f1f6d2bdf308b33a81036d2a608862d052857fc05544
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b79b39a5680447ab02ef00986c994924e2e55dbc55860448f00a8a0e01a1b45
 size 510403817

 version https://git-lfs.github.com/spec/v1
+oid sha256:70d3a108d5b57c18b4dc086ddceadcd8fd6cb7447767943b3a401af1e7d26ec9
 size 510403817

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8613dacebf19a39d9111a86da44f69693a925419e314a219b17a1de0c3c2ef8f
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd584a84981d622a4a49aae5c6af7ee90b3c2b286a8932167387ee7992b325fe
+size 14567

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:afa1d50b5048030f9eea3f4e31d95b58aad9c69608bc50ec31c69b287312d0da
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec253ddc8da1898d70eaa47720ce4ca3ff5eb5f957f1a07fb578eca051cb0b86
 size 623

tokenizer_config.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"unk_token": "<\|endoftext\|>", "bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "add_prefix_space": false, "model_max_length": 1024, "special_tokens_map_file": null, "name_or_path": "~~gpt2~~", "tokenizer_class": "GPT2Tokenizer"}


1	+ {"unk_token": "<\|endoftext\|>", "bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "add_prefix_space": false, "model_max_length": 1024, "special_tokens_map_file": null, "name_or_path": "huggingartists/slava-kpss", "tokenizer_class": "GPT2Tokenizer"}

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 1.7264798879623413,
-  "best_model_checkpoint": "output/slava-kpss/checkpoint-933",
-  "epoch": 1.0,
-  "global_step": 933,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1130,11 +1130,1215 @@
       "eval_samples_per_second": 20.494,
       "eval_steps_per_second": 2.562,
       "step": 933
     }
   ],
-  "max_steps": 933,
-  "num_train_epochs": 1,
-  "total_flos": 974357987328000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.6512105464935303,
+  "best_model_checkpoint": "output/slava-kpss/checkpoint-1922",
+  "epoch": 2.0,
+  "global_step": 1922,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 20.494,
       "eval_steps_per_second": 2.562,
       "step": 933
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 2.476465669200449e-07,
+      "loss": 1.7548,
+      "step": 935
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.615902325712679e-07,
+      "loss": 1.7767,
+      "step": 940
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 9.38184037085626e-08,
+      "loss": 1.7322,
+      "step": 945
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 4.434918674879014e-08,
+      "loss": 1.7019,
+      "step": 950
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.319579824933328e-08,
+      "loss": 1.6765,
+      "step": 955
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 3.665613770225118e-10,
+      "loss": 1.742,
+      "step": 960
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.6864277124404907,
+      "eval_runtime": 68.8946,
+      "eval_samples_per_second": 20.466,
+      "eval_steps_per_second": 2.569,
+      "step": 961
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 5.8649036845078714e-09,
+      "loss": 1.574,
+      "step": 965
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 2.9689356194480253e-08,
+      "loss": 1.7872,
+      "step": 970
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 7.183355379217629e-08,
+      "loss": 1.688,
+      "step": 975
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1.3228623692592306e-07,
+      "loss": 1.7384,
+      "step": 980
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 2.1103125461527332e-07,
+      "loss": 1.672,
+      "step": 985
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 3.0804756876609914e-07,
+      "loss": 1.7357,
+      "step": 990
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 4.233092597912044e-07,
+      "loss": 1.7344,
+      "step": 995
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 5.567855335352604e-07,
+      "loss": 1.7574,
+      "step": 1000
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 7.084407295019475e-07,
+      "loss": 1.7031,
+      "step": 1005
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 8.782343303812844e-07,
+      "loss": 1.6877,
+      "step": 1010
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 1.0661209728745555e-06,
+      "loss": 1.6856,
+      "step": 1015
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 1.272050459813843e-06,
+      "loss": 1.7801,
+      "step": 1020
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.495967773573164e-06,
+      "loss": 1.7647,
+      "step": 1025
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.7378130907672579e-06,
+      "loss": 1.7437,
+      "step": 1030
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 1.997521798234569e-06,
+      "loss": 1.7193,
+      "step": 1035
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 2.275024510299646e-06,
+      "loss": 1.8438,
+      "step": 1040
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 2.570247087310856e-06,
+      "loss": 1.7861,
+      "step": 1045
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 2.883110655447913e-06,
+      "loss": 1.7835,
+      "step": 1050
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 3.213531627794597e-06,
+      "loss": 1.6692,
+      "step": 1055
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 3.561421726670198e-06,
+      "loss": 1.673,
+      "step": 1060
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 3.926688007214648e-06,
+      "loss": 1.7161,
+      "step": 1065
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 4.3092328822202e-06,
+      "loss": 1.725,
+      "step": 1070
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 4.708954148203643e-06,
+      "loss": 1.7126,
+      "step": 1075
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 5.1257450127116035e-06,
+      "loss": 1.7486,
+      "step": 1080
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 5.559494122852188e-06,
+      "loss": 1.7327,
+      "step": 1085
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 6.0100855950445935e-06,
+      "loss": 1.7928,
+      "step": 1090
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 6.477399045979628e-06,
+      "loss": 1.7449,
+      "step": 1095
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 6.961309624782102e-06,
+      "loss": 1.7278,
+      "step": 1100
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 7.461688046366857e-06,
+      "loss": 1.7724,
+      "step": 1105
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 7.97840062597962e-06,
+      "loss": 1.7395,
+      "step": 1110
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 8.511309314913076e-06,
+      "loss": 1.7612,
+      "step": 1115
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 9.060271737389124e-06,
+      "loss": 1.7803,
+      "step": 1120
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 9.625141228596819e-06,
+      "loss": 1.698,
+      "step": 1125
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.0205766873876643e-05,
+      "loss": 1.7627,
+      "step": 1130
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.08019935490398e-05,
+      "loss": 1.615,
+      "step": 1135
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1.1413661961812419e-05,
+      "loss": 1.7236,
+      "step": 1140
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1.2040608694393166e-05,
+      "loss": 1.732,
+      "step": 1145
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.2682666247113272e-05,
+      "loss": 1.7578,
+      "step": 1150
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.333966308318674e-05,
+      "loss": 1.7636,
+      "step": 1155
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1.4011423674539631e-05,
+      "loss": 1.6698,
+      "step": 1160
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1.4697768548705208e-05,
+      "loss": 1.8001,
+      "step": 1165
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1.5398514336773276e-05,
+      "loss": 1.7019,
+      "step": 1170
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1.611347382238021e-05,
+      "loss": 1.7685,
+      "step": 1175
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 1.684245599172719e-05,
+      "loss": 1.8088,
+      "step": 1180
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 1.7585266084612767e-05,
+      "loss": 1.7428,
+      "step": 1185
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.8341705646466328e-05,
+      "loss": 1.712,
+      "step": 1190
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.9111572581368946e-05,
+      "loss": 1.7453,
+      "step": 1195
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1.9894661206046444e-05,
+      "loss": 1.6769,
+      "step": 1200
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 2.069076230482155e-05,
+      "loss": 1.6822,
+      "step": 1205
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 2.1499663185509284e-05,
+      "loss": 1.7965,
+      "step": 1210
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 2.232114773624152e-05,
+      "loss": 1.6978,
+      "step": 1215
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 2.3154996483204744e-05,
+      "loss": 1.7852,
+      "step": 1220
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 2.400098664927671e-05,
+      "loss": 1.6758,
+      "step": 1225
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 2.4858892213544702e-05,
+      "loss": 1.742,
+      "step": 1230
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 2.5728483971691396e-05,
+      "loss": 1.7897,
+      "step": 1235
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 2.660952959723034e-05,
+      "loss": 1.6749,
+      "step": 1240
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 2.750179370357635e-05,
+      "loss": 1.7127,
+      "step": 1245
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 2.8405037906932926e-05,
+      "loss": 1.7259,
+      "step": 1250
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 2.9319020889980675e-05,
+      "loss": 1.6448,
+      "step": 1255
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 3.0243498466349233e-05,
+      "loss": 1.6744,
+      "step": 1260
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 3.117822364585623e-05,
+      "loss": 1.6893,
+      "step": 1265
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 3.212294670049457e-05,
+      "loss": 1.7822,
+      "step": 1270
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 3.3077415231151914e-05,
+      "loss": 1.7231,
+      "step": 1275
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 3.4041374235043516e-05,
+      "loss": 1.7438,
+      "step": 1280
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 3.501456617384015e-05,
+      "loss": 1.776,
+      "step": 1285
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 3.599673104247454e-05,
+      "loss": 1.7459,
+      "step": 1290
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 3.6987606438605696e-05,
+      "loss": 1.7127,
+      "step": 1295
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 3.798692763272465e-05,
+      "loss": 1.6762,
+      "step": 1300
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 3.899442763888126e-05,
+      "loss": 1.7619,
+      "step": 1305
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 4.000983728601432e-05,
+      "loss": 1.7135,
+      "step": 1310
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 4.103288528986497e-05,
+      "loss": 1.7328,
+      "step": 1315
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 4.20632983254554e-05,
+      "loss": 1.7118,
+      "step": 1320
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 4.3100801100111876e-05,
+      "loss": 1.801,
+      "step": 1325
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 4.4145116427014376e-05,
+      "loss": 1.7959,
+      "step": 1330
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 4.519596529925159e-05,
+      "loss": 1.7436,
+      "step": 1335
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 4.625306696436258e-05,
+      "loss": 1.7913,
+      "step": 1340
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 4.7316138999344416e-05,
+      "loss": 1.7002,
+      "step": 1345
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 4.838489738610674e-05,
+      "loss": 1.6758,
+      "step": 1350
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 4.945905658735171e-05,
+      "loss": 1.7027,
+      "step": 1355
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 5.0538329622860605e-05,
+      "loss": 1.7378,
+      "step": 1360
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 5.1622428146165326e-05,
+      "loss": 1.6332,
+      "step": 1365
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 5.271106252158521e-05,
+      "loss": 1.7335,
+      "step": 1370
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 5.3803941901608256e-05,
+      "loss": 1.7126,
+      "step": 1375
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 5.4900774304595864e-05,
+      "loss": 1.7287,
+      "step": 1380
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 5.600126669279115e-05,
+      "loss": 1.6935,
+      "step": 1385
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 5.710512505060865e-05,
+      "loss": 1.7214,
+      "step": 1390
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 5.8212054463186014e-05,
+      "loss": 1.7355,
+      "step": 1395
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 5.9321759195175425e-05,
+      "loss": 1.7537,
+      "step": 1400
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 6.043394276975451e-05,
+      "loss": 1.776,
+      "step": 1405
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 6.154830804783502e-05,
+      "loss": 1.783,
+      "step": 1410
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 6.266455730744911e-05,
+      "loss": 1.7703,
+      "step": 1415
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 6.378239232329044e-05,
+      "loss": 1.7259,
+      "step": 1420
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 6.490151444639059e-05,
+      "loss": 1.6852,
+      "step": 1425
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 6.602162468390815e-05,
+      "loss": 1.675,
+      "step": 1430
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 6.714242377900986e-05,
+      "loss": 1.7367,
+      "step": 1435
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 6.826361229082211e-05,
+      "loss": 1.8171,
+      "step": 1440
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 6.938489067443205e-05,
+      "loss": 1.7388,
+      "step": 1445
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 7.050595936091584e-05,
+      "loss": 1.7459,
+      "step": 1450
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 7.162651883737402e-05,
+      "loss": 1.808,
+      "step": 1455
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 7.274626972695132e-05,
+      "loss": 1.7933,
+      "step": 1460
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 7.386491286882046e-05,
+      "loss": 1.7711,
+      "step": 1465
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 7.498214939810823e-05,
+      "loss": 1.7745,
+      "step": 1470
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 7.609768082574206e-05,
+      "loss": 1.6494,
+      "step": 1475
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 7.721120911819707e-05,
+      "loss": 1.7815,
+      "step": 1480
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 7.83224367771204e-05,
+      "loss": 1.7829,
+      "step": 1485
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 7.943106691881334e-05,
+      "loss": 1.7363,
+      "step": 1490
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 8.053680335354889e-05,
+      "loss": 1.7149,
+      "step": 1495
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 8.163935066470398e-05,
+      "loss": 1.7134,
+      "step": 1500
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 8.273841428768484e-05,
+      "loss": 1.7653,
+      "step": 1505
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 8.383370058862563e-05,
+      "loss": 1.7677,
+      "step": 1510
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 8.492491694283713e-05,
+      "loss": 1.6578,
+      "step": 1515
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 8.601177181298704e-05,
+      "loss": 1.7271,
+      "step": 1520
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 8.709397482698893e-05,
+      "loss": 1.6661,
+      "step": 1525
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 8.817123685558034e-05,
+      "loss": 1.7347,
+      "step": 1530
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 8.92432700895683e-05,
+      "loss": 1.7298,
+      "step": 1535
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 9.03097881167231e-05,
+      "loss": 1.7343,
+      "step": 1540
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 9.137050599829776e-05,
+      "loss": 1.7651,
+      "step": 1545
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 9.242514034515462e-05,
+      "loss": 1.7716,
+      "step": 1550
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 9.34734093934778e-05,
+      "loss": 1.8064,
+      "step": 1555
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 9.451503308005074e-05,
+      "loss": 1.8239,
+      "step": 1560
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 9.554973311708053e-05,
+      "loss": 1.7248,
+      "step": 1565
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 9.657723306654681e-05,
+      "loss": 1.6457,
+      "step": 1570
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 9.759725841405743e-05,
+      "loss": 1.8182,
+      "step": 1575
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 9.86095366421894e-05,
+      "loss": 1.6211,
+      "step": 1580
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 9.961379730329683e-05,
+      "loss": 1.6631,
+      "step": 1585
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00010060977209176536,
+      "loss": 1.7168,
+      "step": 1590
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0001015971949156952,
+      "loss": 1.752,
+      "step": 1595
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.00010257580196799162,
+      "loss": 1.7518,
+      "step": 1600
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00010354533179684596,
+      "loss": 1.7591,
+      "step": 1605
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.00010450552537558691,
+      "loss": 1.7579,
+      "step": 1610
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.00010545612617188394,
+      "loss": 1.7364,
+      "step": 1615
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.00010639688021628421,
+      "loss": 1.7379,
+      "step": 1620
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.00010732753617006524,
+      "loss": 1.7443,
+      "step": 1625
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00010824784539238402,
+      "loss": 1.6989,
+      "step": 1630
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00010915756200670606,
+      "loss": 1.6362,
+      "step": 1635
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00011005644296649529,
+      "loss": 1.7417,
+      "step": 1640
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00011094424812014832,
+      "loss": 1.635,
+      "step": 1645
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00011182074027515503,
+      "loss": 1.6471,
+      "step": 1650
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0001126856852614686,
+      "loss": 1.6803,
+      "step": 1655
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.00011353885199406824,
+      "loss": 1.6863,
+      "step": 1660
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.00011438001253469733,
+      "loss": 1.7498,
+      "step": 1665
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00011520894215276136,
+      "loss": 1.7037,
+      "step": 1670
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00011602541938536831,
+      "loss": 1.6918,
+      "step": 1675
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.00011682922609649652,
+      "loss": 1.7,
+      "step": 1680
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0001176201475352733,
+      "loss": 1.7662,
+      "step": 1685
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.00011839797239334955,
+      "loss": 1.8041,
+      "step": 1690
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.00011916249286135422,
+      "loss": 1.7271,
+      "step": 1695
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.00011991350468441439,
+      "loss": 1.7033,
+      "step": 1700
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.00012065080721672542,
+      "loss": 1.6855,
+      "step": 1705
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00012137420347515691,
+      "loss": 1.6554,
+      "step": 1710
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00012208350019188007,
+      "loss": 1.7365,
+      "step": 1715
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.00012277850786600282,
+      "loss": 1.7106,
+      "step": 1720
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00012345904081419794,
+      "loss": 1.735,
+      "step": 1725
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00012412491722031186,
+      "loss": 1.6991,
+      "step": 1730
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.00012477595918393978,
+      "loss": 1.6981,
+      "step": 1735
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.0001254119927679549,
+      "loss": 1.7559,
+      "step": 1740
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.00012603284804497882,
+      "loss": 1.7479,
+      "step": 1745
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.00012663835914278047,
+      "loss": 1.7712,
+      "step": 1750
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.0001272283642885918,
+      "loss": 1.7758,
+      "step": 1755
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00012780270585232808,
+      "loss": 1.7353,
+      "step": 1760
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00012836123038870173,
+      "loss": 1.7297,
+      "step": 1765
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00012890378867821763,
+      "loss": 1.8349,
+      "step": 1770
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.0001294302357670399,
+      "loss": 1.8035,
+      "step": 1775
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.00012994043100571866,
+      "loss": 1.7481,
+      "step": 1780
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.000130434238086767,
+      "loss": 1.6094,
+      "step": 1785
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00013091152508107798,
+      "loss": 1.7314,
+      "step": 1790
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.00013137216447317167,
+      "loss": 1.8012,
+      "step": 1795
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.0001318160331952632,
+      "loss": 1.7435,
+      "step": 1800
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0001322430126601424,
+      "loss": 1.7132,
+      "step": 1805
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00013265298879285635,
+      "loss": 1.6928,
+      "step": 1810
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.00013304585206118667,
+      "loss": 1.6412,
+      "step": 1815
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.00013342149750491278,
+      "loss": 1.7068,
+      "step": 1820
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0001337798247638538,
+      "loss": 1.7385,
+      "step": 1825
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0001341207381046819,
+      "loss": 1.612,
+      "step": 1830
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00013444414644649843,
+      "loss": 1.6917,
+      "step": 1835
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00013474996338516847,
+      "loss": 1.7257,
+      "step": 1840
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00013503810721640465,
+      "loss": 1.7391,
+      "step": 1845
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00013530850095759623,
+      "loss": 1.7311,
+      "step": 1850
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00013556107236837607,
+      "loss": 1.671,
+      "step": 1855
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.00013579575396992113,
+      "loss": 1.716,
+      "step": 1860
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.00013601248306298038,
+      "loss": 1.7233,
+      "step": 1865
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00013621120174462615,
+      "loss": 1.6546,
+      "step": 1870
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00013639185692372385,
+      "loss": 1.7717,
+      "step": 1875
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00013655440033511618,
+      "loss": 1.7035,
+      "step": 1880
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00013669878855251797,
+      "loss": 1.7345,
+      "step": 1885
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00013682498300011836,
+      "loss": 1.7678,
+      "step": 1890
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00013693294996288687,
+      "loss": 1.6938,
+      "step": 1895
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00013702266059558108,
+      "loss": 1.7334,
+      "step": 1900
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00013709409093045299,
+      "loss": 1.6722,
+      "step": 1905
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00013714722188365257,
+      "loss": 1.7148,
+      "step": 1910
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00013718203926032623,
+      "loss": 1.6982,
+      "step": 1915
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.00013719853375840932,
+      "loss": 1.7054,
+      "step": 1920
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.6512105464935303,
+      "eval_runtime": 68.7702,
+      "eval_samples_per_second": 20.503,
+      "eval_steps_per_second": 2.574,
+      "step": 1922
     }
   ],
+  "max_steps": 1922,
+  "num_train_epochs": 2,
+  "total_flos": 2008029265920000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67df3bd264a71efcb0d01d8192714279a8fc3600ce7fa98693fe3fda12d80b92
 size 2671

 version https://git-lfs.github.com/spec/v1
+oid sha256:67ca83f5ce021a7b1aa7cd6b2ae011df0668facd380e0c315a7528650bbe5092
 size 2671