Upload 14 files

Browse files

Files changed (11) hide show

.gitattributes +1 -0
RewardModel.ipynb +0 -0
RewardModel_emissions.csv +1 -1
config.json +1 -1
optimizer.pt +2 -2
pytorch_model.bin +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
tokenizer.json +2 -2
trainer_state.json +25 -166
training_args.bin +2 -2

.gitattributes CHANGED Viewed

@@ -25,6 +25,7 @@
 *.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text

 *.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text

RewardModel.ipynb CHANGED Viewed

The diff for this file is too large to render. See raw diff

RewardModel_emissions.csv CHANGED Viewed

	@@ -1,2 +1,2 @@
1	timestamp,project_name,run_id,duration,emissions,emissions_rate,cpu_power,gpu_power,ram_power,cpu_energy,gpu_energy,ram_energy,energy_consumed,country_name,country_iso_code,region,cloud_provider,cloud_region,os,python_version,codecarbon_version,cpu_count,cpu_model,gpu_count,gpu_model,longitude,latitude,ram_total_size,tracking_mode,on_cloud,pue
2	- 2023-06-~~13T19~~:45:49,~~RewardModel_emissions~~,~~28b84f34~~-~~fd57~~-~~4f25~~-~~961c~~-~~9f6528e5c397~~,~~4601~~.~~62472319603~~,0.~~2357451806109479~~,5.~~1230857532252777e~~-05,42.5,~~151~~.~~204~~,31.~~30528450012207~~,0.~~054317600807878674~~,0.~~38820106547692845~~,0.~~039978418433687345~~,0.~~48249708471849406~~,Singapore,SGP,,,,Linux-5.15.~~107~~+-x86_64-with-glibc2.31,3.10.12,2.2.3,12,Intel(R) Xeon(R) CPU @ 2.20GHz,1,1 x NVIDIA A100-SXM4-40GB,103.8547,1.2929,83.~~48075866699219~~,machine,N,1.0


1	timestamp,project_name,run_id,duration,emissions,emissions_rate,cpu_power,gpu_power,ram_power,cpu_energy,gpu_energy,ram_energy,energy_consumed,country_name,country_iso_code,region,cloud_provider,cloud_region,os,python_version,codecarbon_version,cpu_count,cpu_model,gpu_count,gpu_model,longitude,latitude,ram_total_size,tracking_mode,on_cloud,pue
2	+ 2023-08-30T21:51:28,RewardModelPT_emissions,96cbbbe3-62c5-41c9-b8d3-52185e05b85d,1674.8272371292114,0.0797799671652134,4.7634744286797414e-05,42.5,239.12942128798596,31.305280208587646,0.019769437138570673,0.12917863306504598,0.0145565772513079,0.16350464745492432,Singapore,SGP,,,,Linux-5.15.109+-x86_64-with-glibc2.35,3.10.12,2.3.1,12,Intel(R) Xeon(R) CPU @ 2.20GHz,1,1 x NVIDIA A100-SXM4-40GB,103.8547,1.2929,83.48074722290039,machine,N,1.0

config.json CHANGED Viewed

@@ -31,7 +31,7 @@
   "pooler_type": "first_token_transform",
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
-  "transformers_version": "4.30.1",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 29794

   "pooler_type": "first_token_transform",
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 29794

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42127a92fb8636f60c5268afc9bd5e2885fda45b635559f5d75a5cccd05b5de6
-size 871509189

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8c3139a8c3e4279e2a9924bc864d843241a89c526bc8fdc6ea432a88c8d4e10
+size 871558917

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e09aab5cc0f696d5dc7bb319ec42158f0d8241bd8060a7285ec77bec19718c97
-size 435768437

 version https://git-lfs.github.com/spec/v1
+oid sha256:edd62695424c023985a0d6b34f7b764da509f9b6437b6d7af5274f07fc4c6cf6
+size 435764017

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a5bf9f43a8b55cc2c935d5c586202803aafae6b7e25833430938be6e97ddb9b
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:34328d2f695efeba4db88f7e971d7409bfd04e499cbb6e22c019df50401e0447
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68dd66f43268be9abd400bd2e864096b73cf1d96aedbf4ec9feacc73aa567580
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:67da5128d498ca4756021811370417b993fb803d16f9d8450b5e82ca5ddbb387
 size 627

tokenizer.json CHANGED Viewed

@@ -2,13 +2,13 @@
   "version": "1.0",
   "truncation": {
     "direction": "Right",
-    "max_length": 350,
     "strategy": "LongestFirst",
     "stride": 0
   },
   "padding": {
     "strategy": {
-      "Fixed": 350
     },
     "direction": "Right",
     "pad_to_multiple_of": null,

   "version": "1.0",
   "truncation": {
     "direction": "Right",
+    "max_length": 400,
     "strategy": "LongestFirst",
     "stride": 0
   },
   "padding": {
     "strategy": {
+      "Fixed": 400
     },
     "direction": "Right",
     "pad_to_multiple_of": null,

trainer_state.json CHANGED Viewed

@@ -1,195 +1,54 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.187604690117253,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.34,
-      "learning_rate": 4.66499162479062e-05,
-      "loss": 0.0795,
       "step": 200
     },
     {
-      "epoch": 0.34,
-      "eval_accuracy": 0.9863571086644327,
-      "eval_loss": 0.04342207312583923,
-      "eval_runtime": 78.4916,
-      "eval_samples_per_second": 106.457,
-      "eval_steps_per_second": 2.535,
-      "step": 200
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 4.32998324958124e-05,
-      "loss": 0.0434,
-      "step": 400
-    },
-    {
-      "epoch": 0.67,
-      "eval_accuracy": 0.9869554810914313,
-      "eval_loss": 0.035848040133714676,
-      "eval_runtime": 78.5171,
-      "eval_samples_per_second": 106.423,
-      "eval_steps_per_second": 2.534,
       "step": 400
     },
     {
-      "epoch": 1.01,
-      "learning_rate": 3.9949748743718597e-05,
-      "loss": 0.0375,
       "step": 600
     },
     {
-      "epoch": 1.01,
-      "eval_accuracy": 0.9876735280038296,
-      "eval_loss": 0.03416126221418381,
-      "eval_runtime": 78.4728,
-      "eval_samples_per_second": 106.483,
-      "eval_steps_per_second": 2.536,
-      "step": 600
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 3.6599664991624795e-05,
-      "loss": 0.0112,
       "step": 800
     },
     {
-      "epoch": 1.34,
-      "eval_accuracy": 0.9885112494016276,
-      "eval_loss": 0.03930915519595146,
-      "eval_runtime": 78.5108,
-      "eval_samples_per_second": 106.431,
-      "eval_steps_per_second": 2.535,
-      "step": 800
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 3.324958123953099e-05,
-      "loss": 0.0089,
       "step": 1000
     },
     {
-      "epoch": 1.68,
-      "eval_accuracy": 0.9877932024892293,
-      "eval_loss": 0.04387575387954712,
-      "eval_runtime": 78.5288,
-      "eval_samples_per_second": 106.407,
-      "eval_steps_per_second": 2.534,
-      "step": 1000
-    },
-    {
-      "epoch": 2.01,
-      "learning_rate": 2.989949748743719e-05,
-      "loss": 0.0117,
-      "step": 1200
-    },
-    {
-      "epoch": 2.01,
-      "eval_accuracy": 0.989588319770225,
-      "eval_loss": 0.04102291911840439,
-      "eval_runtime": 78.5424,
-      "eval_samples_per_second": 106.388,
-      "eval_steps_per_second": 2.534,
       "step": 1200
-    },
-    {
-      "epoch": 2.35,
-      "learning_rate": 2.6549413735343385e-05,
-      "loss": 0.0028,
-      "step": 1400
-    },
-    {
-      "epoch": 2.35,
-      "eval_accuracy": 0.989588319770225,
-      "eval_loss": 0.055005114525556564,
-      "eval_runtime": 78.492,
-      "eval_samples_per_second": 106.457,
-      "eval_steps_per_second": 2.535,
-      "step": 1400
-    },
-    {
-      "epoch": 2.68,
-      "learning_rate": 2.3199329983249583e-05,
-      "loss": 0.0014,
-      "step": 1600
-    },
-    {
-      "epoch": 2.68,
-      "eval_accuracy": 0.9889899473432264,
-      "eval_loss": 0.054427579045295715,
-      "eval_runtime": 78.5005,
-      "eval_samples_per_second": 106.445,
-      "eval_steps_per_second": 2.535,
-      "step": 1600
-    },
-    {
-      "epoch": 3.02,
-      "learning_rate": 1.984924623115578e-05,
-      "loss": 0.0011,
-      "step": 1800
-    },
-    {
-      "epoch": 3.02,
-      "eval_accuracy": 0.989588319770225,
-      "eval_loss": 0.05314817279577255,
-      "eval_runtime": 78.5501,
-      "eval_samples_per_second": 106.378,
-      "eval_steps_per_second": 2.533,
-      "step": 1800
-    },
-    {
-      "epoch": 3.35,
-      "learning_rate": 1.6499162479061976e-05,
-      "loss": 0.0002,
-      "step": 2000
-    },
-    {
-      "epoch": 3.35,
-      "eval_accuracy": 0.9894686452848253,
-      "eval_loss": 0.058279525488615036,
-      "eval_runtime": 78.4971,
-      "eval_samples_per_second": 106.45,
-      "eval_steps_per_second": 2.535,
-      "step": 2000
-    },
-    {
-      "epoch": 3.69,
-      "learning_rate": 1.3149078726968176e-05,
-      "loss": 0.0002,
-      "step": 2200
-    },
-    {
-      "epoch": 3.69,
-      "eval_accuracy": 0.9897079942556247,
-      "eval_loss": 0.05424511060118675,
-      "eval_runtime": 78.4985,
-      "eval_samples_per_second": 106.448,
-      "eval_steps_per_second": 2.535,
-      "step": 2200
-    },
-    {
-      "epoch": 4.02,
-      "learning_rate": 9.798994974874372e-06,
-      "loss": 0.0002,
-      "step": 2400
-    },
-    {
-      "epoch": 4.02,
-      "eval_accuracy": 0.989588319770225,
-      "eval_loss": 0.05800911784172058,
-      "eval_runtime": 78.5022,
-      "eval_samples_per_second": 106.443,
-      "eval_steps_per_second": 2.535,
-      "step": 2400
     }
   ],
-  "max_steps": 2985,
-  "num_train_epochs": 5,
   "total_flos": 0.0,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.5424164524421595,
+  "eval_steps": 500,
+  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.26,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.0396,
       "step": 200
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.0083,
       "step": 400
     },
     {
+      "epoch": 0.77,
+      "learning_rate": 2.5e-05,
+      "loss": 0.0074,
       "step": 600
     },
     {
+      "epoch": 1.03,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.0062,
       "step": 800
     },
     {
+      "epoch": 1.29,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.002,
       "step": 1000
     },
     {
+      "epoch": 1.54,
+      "learning_rate": 0.0,
+      "loss": 0.0013,
       "step": 1200
     }
   ],
+  "logging_steps": 200,
+  "max_steps": 1200,
+  "num_train_epochs": 2,
+  "save_steps": 400,
   "total_flos": 0.0,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f250a5c08e1e9c5ee5dcaeb636fb35a215c6505d2392dc80f8e0d6af40a76a8c
-size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5ef9405a9d75dbc3d85f18ad44a184070e8187d74f7026a41a46fb38b61a3ad
+size 4091