IanA
/

GPTNeo-Dealmaker

@@ -1,532 +0,0 @@
-{
-  "best_metric": 0.440588116645813,
-  "best_model_checkpoint": "./results/checkpoint-1500",
-  "epoch": 1.9920318725099602,
-  "global_step": 3000,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.03,
-      "eval_loss": 0.4968358278274536,
-      "eval_runtime": 22.8103,
-      "eval_samples_per_second": 29.373,
-      "eval_steps_per_second": 29.373,
-      "step": 50
-    },
-    {
-      "epoch": 0.07,
-      "eval_loss": 0.4962530732154846,
-      "eval_runtime": 22.8045,
-      "eval_samples_per_second": 29.38,
-      "eval_steps_per_second": 29.38,
-      "step": 100
-    },
-    {
-      "epoch": 0.1,
-      "eval_loss": 0.5020118951797485,
-      "eval_runtime": 22.8025,
-      "eval_samples_per_second": 29.383,
-      "eval_steps_per_second": 29.383,
-      "step": 150
-    },
-    {
-      "epoch": 0.13,
-      "eval_loss": 0.4915091395378113,
-      "eval_runtime": 22.7983,
-      "eval_samples_per_second": 29.388,
-      "eval_steps_per_second": 29.388,
-      "step": 200
-    },
-    {
-      "epoch": 0.17,
-      "eval_loss": 0.48744314908981323,
-      "eval_runtime": 22.7937,
-      "eval_samples_per_second": 29.394,
-      "eval_steps_per_second": 29.394,
-      "step": 250
-    },
-    {
-      "epoch": 0.2,
-      "eval_loss": 0.48627975583076477,
-      "eval_runtime": 22.8,
-      "eval_samples_per_second": 29.386,
-      "eval_steps_per_second": 29.386,
-      "step": 300
-    },
-    {
-      "epoch": 0.23,
-      "eval_loss": 0.47990691661834717,
-      "eval_runtime": 22.793,
-      "eval_samples_per_second": 29.395,
-      "eval_steps_per_second": 29.395,
-      "step": 350
-    },
-    {
-      "epoch": 0.27,
-      "eval_loss": 0.47654837369918823,
-      "eval_runtime": 22.799,
-      "eval_samples_per_second": 29.387,
-      "eval_steps_per_second": 29.387,
-      "step": 400
-    },
-    {
-      "epoch": 0.3,
-      "eval_loss": 0.475556343793869,
-      "eval_runtime": 22.8029,
-      "eval_samples_per_second": 29.382,
-      "eval_steps_per_second": 29.382,
-      "step": 450
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 4.732839838492598e-05,
-      "loss": 0.5362,
-      "step": 500
-    },
-    {
-      "epoch": 0.33,
-      "eval_loss": 0.47196289896965027,
-      "eval_runtime": 22.7979,
-      "eval_samples_per_second": 29.389,
-      "eval_steps_per_second": 29.389,
-      "step": 500
-    },
-    {
-      "epoch": 0.37,
-      "eval_loss": 0.470073401927948,
-      "eval_runtime": 22.8065,
-      "eval_samples_per_second": 29.378,
-      "eval_steps_per_second": 29.378,
-      "step": 550
-    },
-    {
-      "epoch": 0.4,
-      "eval_loss": 0.4680205285549164,
-      "eval_runtime": 22.7971,
-      "eval_samples_per_second": 29.39,
-      "eval_steps_per_second": 29.39,
-      "step": 600
-    },
-    {
-      "epoch": 0.43,
-      "eval_loss": 0.46594592928886414,
-      "eval_runtime": 22.7927,
-      "eval_samples_per_second": 29.395,
-      "eval_steps_per_second": 29.395,
-      "step": 650
-    },
-    {
-      "epoch": 0.46,
-      "eval_loss": 0.463152676820755,
-      "eval_runtime": 22.7891,
-      "eval_samples_per_second": 29.4,
-      "eval_steps_per_second": 29.4,
-      "step": 700
-    },
-    {
-      "epoch": 0.5,
-      "eval_loss": 0.4629766345024109,
-      "eval_runtime": 22.7924,
-      "eval_samples_per_second": 29.396,
-      "eval_steps_per_second": 29.396,
-      "step": 750
-    },
-    {
-      "epoch": 0.53,
-      "eval_loss": 0.45898592472076416,
-      "eval_runtime": 22.7951,
-      "eval_samples_per_second": 29.392,
-      "eval_steps_per_second": 29.392,
-      "step": 800
-    },
-    {
-      "epoch": 0.56,
-      "eval_loss": 0.4574301540851593,
-      "eval_runtime": 22.7963,
-      "eval_samples_per_second": 29.391,
-      "eval_steps_per_second": 29.391,
-      "step": 850
-    },
-    {
-      "epoch": 0.6,
-      "eval_loss": 0.4551514983177185,
-      "eval_runtime": 22.7965,
-      "eval_samples_per_second": 29.39,
-      "eval_steps_per_second": 29.39,
-      "step": 900
-    },
-    {
-      "epoch": 0.63,
-      "eval_loss": 0.4532181918621063,
-      "eval_runtime": 22.7913,
-      "eval_samples_per_second": 29.397,
-      "eval_steps_per_second": 29.397,
-      "step": 950
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 4.396366083445492e-05,
-      "loss": 0.4595,
-      "step": 1000
-    },
-    {
-      "epoch": 0.66,
-      "eval_loss": 0.4534400999546051,
-      "eval_runtime": 22.7971,
-      "eval_samples_per_second": 29.39,
-      "eval_steps_per_second": 29.39,
-      "step": 1000
-    },
-    {
-      "epoch": 0.7,
-      "eval_loss": 0.4516228139400482,
-      "eval_runtime": 22.8066,
-      "eval_samples_per_second": 29.378,
-      "eval_steps_per_second": 29.378,
-      "step": 1050
-    },
-    {
-      "epoch": 0.73,
-      "eval_loss": 0.4516217112541199,
-      "eval_runtime": 22.7934,
-      "eval_samples_per_second": 29.394,
-      "eval_steps_per_second": 29.394,
-      "step": 1100
-    },
-    {
-      "epoch": 0.76,
-      "eval_loss": 0.4490440785884857,
-      "eval_runtime": 22.7982,
-      "eval_samples_per_second": 29.388,
-      "eval_steps_per_second": 29.388,
-      "step": 1150
-    },
-    {
-      "epoch": 0.8,
-      "eval_loss": 0.44825297594070435,
-      "eval_runtime": 22.8047,
-      "eval_samples_per_second": 29.38,
-      "eval_steps_per_second": 29.38,
-      "step": 1200
-    },
-    {
-      "epoch": 0.83,
-      "eval_loss": 0.44741538166999817,
-      "eval_runtime": 22.8005,
-      "eval_samples_per_second": 29.385,
-      "eval_steps_per_second": 29.385,
-      "step": 1250
-    },
-    {
-      "epoch": 0.86,
-      "eval_loss": 0.44648081064224243,
-      "eval_runtime": 22.7982,
-      "eval_samples_per_second": 29.388,
-      "eval_steps_per_second": 29.388,
-      "step": 1300
-    },
-    {
-      "epoch": 0.9,
-      "eval_loss": 0.44202762842178345,
-      "eval_runtime": 22.7988,
-      "eval_samples_per_second": 29.388,
-      "eval_steps_per_second": 29.388,
-      "step": 1350
-    },
-    {
-      "epoch": 0.93,
-      "eval_loss": 0.442158043384552,
-      "eval_runtime": 22.7966,
-      "eval_samples_per_second": 29.39,
-      "eval_steps_per_second": 29.39,
-      "step": 1400
-    },
-    {
-      "epoch": 0.96,
-      "eval_loss": 0.44166651368141174,
-      "eval_runtime": 22.7983,
-      "eval_samples_per_second": 29.388,
-      "eval_steps_per_second": 29.388,
-      "step": 1450
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 4.0598923283983853e-05,
-      "loss": 0.4383,
-      "step": 1500
-    },
-    {
-      "epoch": 1.0,
-      "eval_loss": 0.440588116645813,
-      "eval_runtime": 22.7995,
-      "eval_samples_per_second": 29.387,
-      "eval_steps_per_second": 29.387,
-      "step": 1500
-    },
-    {
-      "epoch": 1.03,
-      "eval_loss": 0.45270833373069763,
-      "eval_runtime": 22.8208,
-      "eval_samples_per_second": 29.359,
-      "eval_steps_per_second": 29.359,
-      "step": 1550
-    },
-    {
-      "epoch": 1.06,
-      "eval_loss": 0.45460081100463867,
-      "eval_runtime": 22.7988,
-      "eval_samples_per_second": 29.388,
-      "eval_steps_per_second": 29.388,
-      "step": 1600
-    },
-    {
-      "epoch": 1.1,
-      "eval_loss": 0.4546465575695038,
-      "eval_runtime": 22.8024,
-      "eval_samples_per_second": 29.383,
-      "eval_steps_per_second": 29.383,
-      "step": 1650
-    },
-    {
-      "epoch": 1.13,
-      "eval_loss": 0.45767539739608765,
-      "eval_runtime": 22.8006,
-      "eval_samples_per_second": 29.385,
-      "eval_steps_per_second": 29.385,
-      "step": 1700
-    },
-    {
-      "epoch": 1.16,
-      "eval_loss": 0.4575343728065491,
-      "eval_runtime": 22.8053,
-      "eval_samples_per_second": 29.379,
-      "eval_steps_per_second": 29.379,
-      "step": 1750
-    },
-    {
-      "epoch": 1.2,
-      "eval_loss": 0.4562443494796753,
-      "eval_runtime": 22.7983,
-      "eval_samples_per_second": 29.388,
-      "eval_steps_per_second": 29.388,
-      "step": 1800
-    },
-    {
-      "epoch": 1.23,
-      "eval_loss": 0.4556874632835388,
-      "eval_runtime": 22.7968,
-      "eval_samples_per_second": 29.39,
-      "eval_steps_per_second": 29.39,
-      "step": 1850
-    },
-    {
-      "epoch": 1.26,
-      "eval_loss": 0.4551508128643036,
-      "eval_runtime": 22.8001,
-      "eval_samples_per_second": 29.386,
-      "eval_steps_per_second": 29.386,
-      "step": 1900
-    },
-    {
-      "epoch": 1.29,
-      "eval_loss": 0.4562254846096039,
-      "eval_runtime": 22.7972,
-      "eval_samples_per_second": 29.39,
-      "eval_steps_per_second": 29.39,
-      "step": 1950
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 3.723418573351279e-05,
-      "loss": 0.2994,
-      "step": 2000
-    },
-    {
-      "epoch": 1.33,
-      "eval_loss": 0.4507925510406494,
-      "eval_runtime": 22.8043,
-      "eval_samples_per_second": 29.38,
-      "eval_steps_per_second": 29.38,
-      "step": 2000
-    },
-    {
-      "epoch": 1.36,
-      "eval_loss": 0.45181065797805786,
-      "eval_runtime": 22.8163,
-      "eval_samples_per_second": 29.365,
-      "eval_steps_per_second": 29.365,
-      "step": 2050
-    },
-    {
-      "epoch": 1.39,
-      "eval_loss": 0.45148006081581116,
-      "eval_runtime": 22.8045,
-      "eval_samples_per_second": 29.38,
-      "eval_steps_per_second": 29.38,
-      "step": 2100
-    },
-    {
-      "epoch": 1.43,
-      "eval_loss": 0.45323121547698975,
-      "eval_runtime": 22.805,
-      "eval_samples_per_second": 29.38,
-      "eval_steps_per_second": 29.38,
-      "step": 2150
-    },
-    {
-      "epoch": 1.46,
-      "eval_loss": 0.45210888981819153,
-      "eval_runtime": 22.8053,
-      "eval_samples_per_second": 29.379,
-      "eval_steps_per_second": 29.379,
-      "step": 2200
-    },
-    {
-      "epoch": 1.49,
-      "eval_loss": 0.4499363601207733,
-      "eval_runtime": 22.8014,
-      "eval_samples_per_second": 29.384,
-      "eval_steps_per_second": 29.384,
-      "step": 2250
-    },
-    {
-      "epoch": 1.53,
-      "eval_loss": 0.4511328935623169,
-      "eval_runtime": 22.8034,
-      "eval_samples_per_second": 29.382,
-      "eval_steps_per_second": 29.382,
-      "step": 2300
-    },
-    {
-      "epoch": 1.56,
-      "eval_loss": 0.44887685775756836,
-      "eval_runtime": 22.8034,
-      "eval_samples_per_second": 29.382,
-      "eval_steps_per_second": 29.382,
-      "step": 2350
-    },
-    {
-      "epoch": 1.59,
-      "eval_loss": 0.4465619921684265,
-      "eval_runtime": 22.8019,
-      "eval_samples_per_second": 29.383,
-      "eval_steps_per_second": 29.383,
-      "step": 2400
-    },
-    {
-      "epoch": 1.63,
-      "eval_loss": 0.4489704966545105,
-      "eval_runtime": 22.801,
-      "eval_samples_per_second": 29.385,
-      "eval_steps_per_second": 29.385,
-      "step": 2450
-    },
-    {
-      "epoch": 1.66,
-      "learning_rate": 3.386944818304172e-05,
-      "loss": 0.2946,
-      "step": 2500
-    },
-    {
-      "epoch": 1.66,
-      "eval_loss": 0.4510194659233093,
-      "eval_runtime": 22.7961,
-      "eval_samples_per_second": 29.391,
-      "eval_steps_per_second": 29.391,
-      "step": 2500
-    },
-    {
-      "epoch": 1.69,
-      "eval_loss": 0.4499521851539612,
-      "eval_runtime": 22.8095,
-      "eval_samples_per_second": 29.374,
-      "eval_steps_per_second": 29.374,
-      "step": 2550
-    },
-    {
-      "epoch": 1.73,
-      "eval_loss": 0.44297194480895996,
-      "eval_runtime": 22.8114,
-      "eval_samples_per_second": 29.371,
-      "eval_steps_per_second": 29.371,
-      "step": 2600
-    },
-    {
-      "epoch": 1.76,
-      "eval_loss": 0.4441739618778229,
-      "eval_runtime": 22.8127,
-      "eval_samples_per_second": 29.37,
-      "eval_steps_per_second": 29.37,
-      "step": 2650
-    },
-    {
-      "epoch": 1.79,
-      "eval_loss": 0.44600966572761536,
-      "eval_runtime": 22.8114,
-      "eval_samples_per_second": 29.371,
-      "eval_steps_per_second": 29.371,
-      "step": 2700
-    },
-    {
-      "epoch": 1.83,
-      "eval_loss": 0.4461658000946045,
-      "eval_runtime": 22.8112,
-      "eval_samples_per_second": 29.372,
-      "eval_steps_per_second": 29.372,
-      "step": 2750
-    },
-    {
-      "epoch": 1.86,
-      "eval_loss": 0.4427674114704132,
-      "eval_runtime": 22.8085,
-      "eval_samples_per_second": 29.375,
-      "eval_steps_per_second": 29.375,
-      "step": 2800
-    },
-    {
-      "epoch": 1.89,
-      "eval_loss": 0.44410833716392517,
-      "eval_runtime": 22.8091,
-      "eval_samples_per_second": 29.374,
-      "eval_steps_per_second": 29.374,
-      "step": 2850
-    },
-    {
-      "epoch": 1.93,
-      "eval_loss": 0.4429542124271393,
-      "eval_runtime": 22.8068,
-      "eval_samples_per_second": 29.377,
-      "eval_steps_per_second": 29.377,
-      "step": 2900
-    },
-    {
-      "epoch": 1.96,
-      "eval_loss": 0.44093453884124756,
-      "eval_runtime": 22.8017,
-      "eval_samples_per_second": 29.384,
-      "eval_steps_per_second": 29.384,
-      "step": 2950
-    },
-    {
-      "epoch": 1.99,
-      "learning_rate": 3.050471063257066e-05,
-      "loss": 0.2961,
-      "step": 3000
-    },
-    {
-      "epoch": 1.99,
-      "eval_loss": 0.44067710638046265,
-      "eval_runtime": 22.8039,
-      "eval_samples_per_second": 29.381,
-      "eval_steps_per_second": 29.381,
-      "step": 3000
-    }
-  ],
-  "max_steps": 7530,
-  "num_train_epochs": 5,
-  "total_flos": 5.2553298345984e+16,
-  "trial_name": null,
-  "trial_params": null
-}