UltimoUno commited on
Commit
1e19262
1 Parent(s): 3807307

Uploaded checkpoint-4000

Browse files
Files changed (5) hide show
  1. model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. rng_state.pth +1 -1
  4. scheduler.pt +1 -1
  5. trainer_state.json +711 -3
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e80a771a902651e246b193fcf37986946f6a5ab021798cf9a01c65b71035adaa
3
  size 2692969128
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:11b12a5db03b21601ef2fbf830ece39543cf496c2b384f79ea8cd1e13f05c681
3
  size 2692969128
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d19439958f10e6b8bd2d75773a92fac0b59e303294313bf5a29059f4d0a3be3d
3
  size 5386075202
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d0bc7be545c71698aed05f3fc1be12a4ed5c0a5ce82ef2cdbed93d83ab3fd6e8
3
  size 5386075202
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ee3528bf0ace792176d57cac1ea8e325db1e81a8856e3e8a6e53688b51f9516e
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1c92a95a97d689d636b085d406167a1d143dce26fb83ee64d21cf4b37a120302
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:770db92ac44ccb712216aece2abb8a41e68fd6d952c7ae7884e9032fb3cc3f81
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2f80b0441e18382140898e5947e4bf00161c8985bfd13094069daa8dad861cc8
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 0.01529085636138916,
3
  "best_model_checkpoint": "runs/deepseek_CMU-AIR2/math-deepseek-FULL-ArithHard-30k_20240424-195522/checkpoint-3000",
4
- "epoch": 0.9399232396020991,
5
  "eval_steps": 1000,
6
- "global_step": 3000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2131,6 +2131,714 @@
2131
  "eval_samples_per_second": 18.675,
2132
  "eval_steps_per_second": 18.675,
2133
  "step": 3000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2134
  }
2135
  ],
2136
  "logging_steps": 10,
@@ -2138,7 +2846,7 @@
2138
  "num_input_tokens_seen": 0,
2139
  "num_train_epochs": 2,
2140
  "save_steps": 1000,
2141
- "total_flos": 4.7201094991872e+16,
2142
  "train_batch_size": 1,
2143
  "trial_name": null,
2144
  "trial_params": null
 
1
  {
2
  "best_metric": 0.01529085636138916,
3
  "best_model_checkpoint": "runs/deepseek_CMU-AIR2/math-deepseek-FULL-ArithHard-30k_20240424-195522/checkpoint-3000",
4
+ "epoch": 1.2532309861361322,
5
  "eval_steps": 1000,
6
+ "global_step": 4000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2131
  "eval_samples_per_second": 18.675,
2132
  "eval_steps_per_second": 18.675,
2133
  "step": 3000
2134
+ },
2135
+ {
2136
+ "epoch": 0.94,
2137
+ "grad_norm": 9.875,
2138
+ "learning_rate": 8.844444444444445e-06,
2139
+ "loss": 0.1394,
2140
+ "step": 3010
2141
+ },
2142
+ {
2143
+ "epoch": 0.95,
2144
+ "grad_norm": 0.0013885498046875,
2145
+ "learning_rate": 8.8e-06,
2146
+ "loss": 0.0398,
2147
+ "step": 3020
2148
+ },
2149
+ {
2150
+ "epoch": 0.95,
2151
+ "grad_norm": 0.0028228759765625,
2152
+ "learning_rate": 8.755555555555556e-06,
2153
+ "loss": 0.0174,
2154
+ "step": 3030
2155
+ },
2156
+ {
2157
+ "epoch": 0.95,
2158
+ "grad_norm": 14.6875,
2159
+ "learning_rate": 8.711111111111111e-06,
2160
+ "loss": 0.0902,
2161
+ "step": 3040
2162
+ },
2163
+ {
2164
+ "epoch": 0.96,
2165
+ "grad_norm": 0.005157470703125,
2166
+ "learning_rate": 8.666666666666668e-06,
2167
+ "loss": 0.0367,
2168
+ "step": 3050
2169
+ },
2170
+ {
2171
+ "epoch": 0.96,
2172
+ "grad_norm": 0.005157470703125,
2173
+ "learning_rate": 8.622222222222223e-06,
2174
+ "loss": 0.0494,
2175
+ "step": 3060
2176
+ },
2177
+ {
2178
+ "epoch": 0.96,
2179
+ "grad_norm": 14.5,
2180
+ "learning_rate": 8.577777777777778e-06,
2181
+ "loss": 0.0721,
2182
+ "step": 3070
2183
+ },
2184
+ {
2185
+ "epoch": 0.96,
2186
+ "grad_norm": 0.0014190673828125,
2187
+ "learning_rate": 8.533333333333335e-06,
2188
+ "loss": 0.0439,
2189
+ "step": 3080
2190
+ },
2191
+ {
2192
+ "epoch": 0.97,
2193
+ "grad_norm": 15.1875,
2194
+ "learning_rate": 8.48888888888889e-06,
2195
+ "loss": 0.0115,
2196
+ "step": 3090
2197
+ },
2198
+ {
2199
+ "epoch": 0.97,
2200
+ "grad_norm": 0.00135040283203125,
2201
+ "learning_rate": 8.444444444444446e-06,
2202
+ "loss": 0.0594,
2203
+ "step": 3100
2204
+ },
2205
+ {
2206
+ "epoch": 0.97,
2207
+ "grad_norm": 0.0052490234375,
2208
+ "learning_rate": 8.400000000000001e-06,
2209
+ "loss": 0.1152,
2210
+ "step": 3110
2211
+ },
2212
+ {
2213
+ "epoch": 0.98,
2214
+ "grad_norm": 0.033935546875,
2215
+ "learning_rate": 8.355555555555556e-06,
2216
+ "loss": 0.0279,
2217
+ "step": 3120
2218
+ },
2219
+ {
2220
+ "epoch": 0.98,
2221
+ "grad_norm": 0.0023345947265625,
2222
+ "learning_rate": 8.311111111111111e-06,
2223
+ "loss": 0.0406,
2224
+ "step": 3130
2225
+ },
2226
+ {
2227
+ "epoch": 0.98,
2228
+ "grad_norm": 0.00182342529296875,
2229
+ "learning_rate": 8.266666666666667e-06,
2230
+ "loss": 0.0773,
2231
+ "step": 3140
2232
+ },
2233
+ {
2234
+ "epoch": 0.99,
2235
+ "grad_norm": 4.8125,
2236
+ "learning_rate": 8.222222222222222e-06,
2237
+ "loss": 0.014,
2238
+ "step": 3150
2239
+ },
2240
+ {
2241
+ "epoch": 0.99,
2242
+ "grad_norm": 0.004913330078125,
2243
+ "learning_rate": 8.177777777777779e-06,
2244
+ "loss": 0.0279,
2245
+ "step": 3160
2246
+ },
2247
+ {
2248
+ "epoch": 0.99,
2249
+ "grad_norm": 0.00148773193359375,
2250
+ "learning_rate": 8.133333333333334e-06,
2251
+ "loss": 0.0097,
2252
+ "step": 3170
2253
+ },
2254
+ {
2255
+ "epoch": 1.0,
2256
+ "grad_norm": 0.00142669677734375,
2257
+ "learning_rate": 8.08888888888889e-06,
2258
+ "loss": 0.0592,
2259
+ "step": 3180
2260
+ },
2261
+ {
2262
+ "epoch": 1.0,
2263
+ "grad_norm": 0.0015411376953125,
2264
+ "learning_rate": 8.044444444444444e-06,
2265
+ "loss": 0.0246,
2266
+ "step": 3190
2267
+ },
2268
+ {
2269
+ "epoch": 1.0,
2270
+ "grad_norm": 3.9375,
2271
+ "learning_rate": 8.000000000000001e-06,
2272
+ "loss": 0.007,
2273
+ "step": 3200
2274
+ },
2275
+ {
2276
+ "epoch": 1.01,
2277
+ "grad_norm": 6.84375,
2278
+ "learning_rate": 7.955555555555557e-06,
2279
+ "loss": 0.0145,
2280
+ "step": 3210
2281
+ },
2282
+ {
2283
+ "epoch": 1.01,
2284
+ "grad_norm": 13.875,
2285
+ "learning_rate": 7.911111111111112e-06,
2286
+ "loss": 0.0614,
2287
+ "step": 3220
2288
+ },
2289
+ {
2290
+ "epoch": 1.01,
2291
+ "grad_norm": 0.0013427734375,
2292
+ "learning_rate": 7.866666666666667e-06,
2293
+ "loss": 0.0126,
2294
+ "step": 3230
2295
+ },
2296
+ {
2297
+ "epoch": 1.02,
2298
+ "grad_norm": 2.703125,
2299
+ "learning_rate": 7.822222222222224e-06,
2300
+ "loss": 0.0077,
2301
+ "step": 3240
2302
+ },
2303
+ {
2304
+ "epoch": 1.02,
2305
+ "grad_norm": 0.005218505859375,
2306
+ "learning_rate": 7.77777777777778e-06,
2307
+ "loss": 0.0156,
2308
+ "step": 3250
2309
+ },
2310
+ {
2311
+ "epoch": 1.02,
2312
+ "grad_norm": 0.0986328125,
2313
+ "learning_rate": 7.733333333333334e-06,
2314
+ "loss": 0.0201,
2315
+ "step": 3260
2316
+ },
2317
+ {
2318
+ "epoch": 1.02,
2319
+ "grad_norm": 6.5625,
2320
+ "learning_rate": 7.68888888888889e-06,
2321
+ "loss": 0.0444,
2322
+ "step": 3270
2323
+ },
2324
+ {
2325
+ "epoch": 1.03,
2326
+ "grad_norm": 0.0016326904296875,
2327
+ "learning_rate": 7.644444444444445e-06,
2328
+ "loss": 0.0145,
2329
+ "step": 3280
2330
+ },
2331
+ {
2332
+ "epoch": 1.03,
2333
+ "grad_norm": 0.0021514892578125,
2334
+ "learning_rate": 7.600000000000001e-06,
2335
+ "loss": 0.0001,
2336
+ "step": 3290
2337
+ },
2338
+ {
2339
+ "epoch": 1.03,
2340
+ "grad_norm": 0.0027923583984375,
2341
+ "learning_rate": 7.555555555555556e-06,
2342
+ "loss": 0.0075,
2343
+ "step": 3300
2344
+ },
2345
+ {
2346
+ "epoch": 1.04,
2347
+ "grad_norm": 7.5625,
2348
+ "learning_rate": 7.511111111111111e-06,
2349
+ "loss": 0.023,
2350
+ "step": 3310
2351
+ },
2352
+ {
2353
+ "epoch": 1.04,
2354
+ "grad_norm": 0.0013885498046875,
2355
+ "learning_rate": 7.4666666666666675e-06,
2356
+ "loss": 0.0159,
2357
+ "step": 3320
2358
+ },
2359
+ {
2360
+ "epoch": 1.04,
2361
+ "grad_norm": 1.09375,
2362
+ "learning_rate": 7.422222222222223e-06,
2363
+ "loss": 0.1023,
2364
+ "step": 3330
2365
+ },
2366
+ {
2367
+ "epoch": 1.05,
2368
+ "grad_norm": 14.1875,
2369
+ "learning_rate": 7.377777777777778e-06,
2370
+ "loss": 0.0436,
2371
+ "step": 3340
2372
+ },
2373
+ {
2374
+ "epoch": 1.05,
2375
+ "grad_norm": 0.004974365234375,
2376
+ "learning_rate": 7.333333333333333e-06,
2377
+ "loss": 0.0197,
2378
+ "step": 3350
2379
+ },
2380
+ {
2381
+ "epoch": 1.05,
2382
+ "grad_norm": 0.00147247314453125,
2383
+ "learning_rate": 7.28888888888889e-06,
2384
+ "loss": 0.0183,
2385
+ "step": 3360
2386
+ },
2387
+ {
2388
+ "epoch": 1.06,
2389
+ "grad_norm": 0.00150299072265625,
2390
+ "learning_rate": 7.244444444444445e-06,
2391
+ "loss": 0.0529,
2392
+ "step": 3370
2393
+ },
2394
+ {
2395
+ "epoch": 1.06,
2396
+ "grad_norm": 0.00518798828125,
2397
+ "learning_rate": 7.2000000000000005e-06,
2398
+ "loss": 0.0733,
2399
+ "step": 3380
2400
+ },
2401
+ {
2402
+ "epoch": 1.06,
2403
+ "grad_norm": 0.88671875,
2404
+ "learning_rate": 7.155555555555556e-06,
2405
+ "loss": 0.0076,
2406
+ "step": 3390
2407
+ },
2408
+ {
2409
+ "epoch": 1.07,
2410
+ "grad_norm": 0.00157928466796875,
2411
+ "learning_rate": 7.111111111111112e-06,
2412
+ "loss": 0.0099,
2413
+ "step": 3400
2414
+ },
2415
+ {
2416
+ "epoch": 1.07,
2417
+ "grad_norm": 5.625,
2418
+ "learning_rate": 7.066666666666667e-06,
2419
+ "loss": 0.0174,
2420
+ "step": 3410
2421
+ },
2422
+ {
2423
+ "epoch": 1.07,
2424
+ "grad_norm": 0.00112152099609375,
2425
+ "learning_rate": 7.022222222222222e-06,
2426
+ "loss": 0.0021,
2427
+ "step": 3420
2428
+ },
2429
+ {
2430
+ "epoch": 1.07,
2431
+ "grad_norm": 0.0013885498046875,
2432
+ "learning_rate": 6.977777777777779e-06,
2433
+ "loss": 0.0449,
2434
+ "step": 3430
2435
+ },
2436
+ {
2437
+ "epoch": 1.08,
2438
+ "grad_norm": 0.0024871826171875,
2439
+ "learning_rate": 6.9333333333333344e-06,
2440
+ "loss": 0.0369,
2441
+ "step": 3440
2442
+ },
2443
+ {
2444
+ "epoch": 1.08,
2445
+ "grad_norm": 0.004974365234375,
2446
+ "learning_rate": 6.88888888888889e-06,
2447
+ "loss": 0.0058,
2448
+ "step": 3450
2449
+ },
2450
+ {
2451
+ "epoch": 1.08,
2452
+ "grad_norm": 0.0011749267578125,
2453
+ "learning_rate": 6.844444444444445e-06,
2454
+ "loss": 0.0166,
2455
+ "step": 3460
2456
+ },
2457
+ {
2458
+ "epoch": 1.09,
2459
+ "grad_norm": 0.474609375,
2460
+ "learning_rate": 6.800000000000001e-06,
2461
+ "loss": 0.0177,
2462
+ "step": 3470
2463
+ },
2464
+ {
2465
+ "epoch": 1.09,
2466
+ "grad_norm": 7.28125,
2467
+ "learning_rate": 6.755555555555556e-06,
2468
+ "loss": 0.0477,
2469
+ "step": 3480
2470
+ },
2471
+ {
2472
+ "epoch": 1.09,
2473
+ "grad_norm": 7.84375,
2474
+ "learning_rate": 6.711111111111111e-06,
2475
+ "loss": 0.0404,
2476
+ "step": 3490
2477
+ },
2478
+ {
2479
+ "epoch": 1.1,
2480
+ "grad_norm": 0.00115203857421875,
2481
+ "learning_rate": 6.666666666666667e-06,
2482
+ "loss": 0.0348,
2483
+ "step": 3500
2484
+ },
2485
+ {
2486
+ "epoch": 1.1,
2487
+ "grad_norm": 0.00537109375,
2488
+ "learning_rate": 6.6222222222222236e-06,
2489
+ "loss": 0.0541,
2490
+ "step": 3510
2491
+ },
2492
+ {
2493
+ "epoch": 1.1,
2494
+ "grad_norm": 0.00139617919921875,
2495
+ "learning_rate": 6.577777777777779e-06,
2496
+ "loss": 0.0136,
2497
+ "step": 3520
2498
+ },
2499
+ {
2500
+ "epoch": 1.11,
2501
+ "grad_norm": 2.453125,
2502
+ "learning_rate": 6.533333333333334e-06,
2503
+ "loss": 0.0404,
2504
+ "step": 3530
2505
+ },
2506
+ {
2507
+ "epoch": 1.11,
2508
+ "grad_norm": 0.005218505859375,
2509
+ "learning_rate": 6.488888888888889e-06,
2510
+ "loss": 0.0226,
2511
+ "step": 3540
2512
+ },
2513
+ {
2514
+ "epoch": 1.11,
2515
+ "grad_norm": 0.00135040283203125,
2516
+ "learning_rate": 6.444444444444445e-06,
2517
+ "loss": 0.0049,
2518
+ "step": 3550
2519
+ },
2520
+ {
2521
+ "epoch": 1.12,
2522
+ "grad_norm": 0.001251220703125,
2523
+ "learning_rate": 6.4000000000000006e-06,
2524
+ "loss": 0.0419,
2525
+ "step": 3560
2526
+ },
2527
+ {
2528
+ "epoch": 1.12,
2529
+ "grad_norm": 0.0012054443359375,
2530
+ "learning_rate": 6.355555555555556e-06,
2531
+ "loss": 0.0223,
2532
+ "step": 3570
2533
+ },
2534
+ {
2535
+ "epoch": 1.12,
2536
+ "grad_norm": 0.0106201171875,
2537
+ "learning_rate": 6.311111111111111e-06,
2538
+ "loss": 0.0229,
2539
+ "step": 3580
2540
+ },
2541
+ {
2542
+ "epoch": 1.12,
2543
+ "grad_norm": 0.0024261474609375,
2544
+ "learning_rate": 6.266666666666668e-06,
2545
+ "loss": 0.0099,
2546
+ "step": 3590
2547
+ },
2548
+ {
2549
+ "epoch": 1.13,
2550
+ "grad_norm": 7.96875,
2551
+ "learning_rate": 6.222222222222223e-06,
2552
+ "loss": 0.0291,
2553
+ "step": 3600
2554
+ },
2555
+ {
2556
+ "epoch": 1.13,
2557
+ "grad_norm": 0.00225830078125,
2558
+ "learning_rate": 6.177777777777778e-06,
2559
+ "loss": 0.0,
2560
+ "step": 3610
2561
+ },
2562
+ {
2563
+ "epoch": 1.13,
2564
+ "grad_norm": 0.00124359130859375,
2565
+ "learning_rate": 6.133333333333334e-06,
2566
+ "loss": 0.02,
2567
+ "step": 3620
2568
+ },
2569
+ {
2570
+ "epoch": 1.14,
2571
+ "grad_norm": 11.875,
2572
+ "learning_rate": 6.08888888888889e-06,
2573
+ "loss": 0.0115,
2574
+ "step": 3630
2575
+ },
2576
+ {
2577
+ "epoch": 1.14,
2578
+ "grad_norm": 0.0291748046875,
2579
+ "learning_rate": 6.044444444444445e-06,
2580
+ "loss": 0.0363,
2581
+ "step": 3640
2582
+ },
2583
+ {
2584
+ "epoch": 1.14,
2585
+ "grad_norm": 15.4375,
2586
+ "learning_rate": 6e-06,
2587
+ "loss": 0.034,
2588
+ "step": 3650
2589
+ },
2590
+ {
2591
+ "epoch": 1.15,
2592
+ "grad_norm": 9.3125,
2593
+ "learning_rate": 5.955555555555555e-06,
2594
+ "loss": 0.0423,
2595
+ "step": 3660
2596
+ },
2597
+ {
2598
+ "epoch": 1.15,
2599
+ "grad_norm": 1.9609375,
2600
+ "learning_rate": 5.911111111111112e-06,
2601
+ "loss": 0.0256,
2602
+ "step": 3670
2603
+ },
2604
+ {
2605
+ "epoch": 1.15,
2606
+ "grad_norm": 0.00102996826171875,
2607
+ "learning_rate": 5.8666666666666675e-06,
2608
+ "loss": 0.0369,
2609
+ "step": 3680
2610
+ },
2611
+ {
2612
+ "epoch": 1.16,
2613
+ "grad_norm": 4.5625,
2614
+ "learning_rate": 5.822222222222223e-06,
2615
+ "loss": 0.0705,
2616
+ "step": 3690
2617
+ },
2618
+ {
2619
+ "epoch": 1.16,
2620
+ "grad_norm": 5.125,
2621
+ "learning_rate": 5.777777777777778e-06,
2622
+ "loss": 0.0195,
2623
+ "step": 3700
2624
+ },
2625
+ {
2626
+ "epoch": 1.16,
2627
+ "grad_norm": 0.0022430419921875,
2628
+ "learning_rate": 5.733333333333334e-06,
2629
+ "loss": 0.032,
2630
+ "step": 3710
2631
+ },
2632
+ {
2633
+ "epoch": 1.17,
2634
+ "grad_norm": 0.0732421875,
2635
+ "learning_rate": 5.688888888888889e-06,
2636
+ "loss": 0.0796,
2637
+ "step": 3720
2638
+ },
2639
+ {
2640
+ "epoch": 1.17,
2641
+ "grad_norm": 0.000965118408203125,
2642
+ "learning_rate": 5.6444444444444445e-06,
2643
+ "loss": 0.0185,
2644
+ "step": 3730
2645
+ },
2646
+ {
2647
+ "epoch": 1.17,
2648
+ "grad_norm": 0.00099945068359375,
2649
+ "learning_rate": 5.600000000000001e-06,
2650
+ "loss": 0.0536,
2651
+ "step": 3740
2652
+ },
2653
+ {
2654
+ "epoch": 1.17,
2655
+ "grad_norm": 0.033203125,
2656
+ "learning_rate": 5.555555555555557e-06,
2657
+ "loss": 0.0247,
2658
+ "step": 3750
2659
+ },
2660
+ {
2661
+ "epoch": 1.18,
2662
+ "grad_norm": 0.00131988525390625,
2663
+ "learning_rate": 5.511111111111112e-06,
2664
+ "loss": 0.0206,
2665
+ "step": 3760
2666
+ },
2667
+ {
2668
+ "epoch": 1.18,
2669
+ "grad_norm": 0.0021514892578125,
2670
+ "learning_rate": 5.466666666666667e-06,
2671
+ "loss": 0.062,
2672
+ "step": 3770
2673
+ },
2674
+ {
2675
+ "epoch": 1.18,
2676
+ "grad_norm": 0.004913330078125,
2677
+ "learning_rate": 5.422222222222223e-06,
2678
+ "loss": 0.0049,
2679
+ "step": 3780
2680
+ },
2681
+ {
2682
+ "epoch": 1.19,
2683
+ "grad_norm": 0.06689453125,
2684
+ "learning_rate": 5.3777777777777784e-06,
2685
+ "loss": 0.0189,
2686
+ "step": 3790
2687
+ },
2688
+ {
2689
+ "epoch": 1.19,
2690
+ "grad_norm": 1.1796875,
2691
+ "learning_rate": 5.333333333333334e-06,
2692
+ "loss": 0.015,
2693
+ "step": 3800
2694
+ },
2695
+ {
2696
+ "epoch": 1.19,
2697
+ "grad_norm": 0.0015411376953125,
2698
+ "learning_rate": 5.288888888888889e-06,
2699
+ "loss": 0.0128,
2700
+ "step": 3810
2701
+ },
2702
+ {
2703
+ "epoch": 1.2,
2704
+ "grad_norm": 0.00103759765625,
2705
+ "learning_rate": 5.244444444444445e-06,
2706
+ "loss": 0.0301,
2707
+ "step": 3820
2708
+ },
2709
+ {
2710
+ "epoch": 1.2,
2711
+ "grad_norm": 0.0240478515625,
2712
+ "learning_rate": 5.2e-06,
2713
+ "loss": 0.0142,
2714
+ "step": 3830
2715
+ },
2716
+ {
2717
+ "epoch": 1.2,
2718
+ "grad_norm": 0.004852294921875,
2719
+ "learning_rate": 5.155555555555556e-06,
2720
+ "loss": 0.0221,
2721
+ "step": 3840
2722
+ },
2723
+ {
2724
+ "epoch": 1.21,
2725
+ "grad_norm": 0.001983642578125,
2726
+ "learning_rate": 5.1111111111111115e-06,
2727
+ "loss": 0.0001,
2728
+ "step": 3850
2729
+ },
2730
+ {
2731
+ "epoch": 1.21,
2732
+ "grad_norm": 2.625,
2733
+ "learning_rate": 5.0666666666666676e-06,
2734
+ "loss": 0.0297,
2735
+ "step": 3860
2736
+ },
2737
+ {
2738
+ "epoch": 1.21,
2739
+ "grad_norm": 0.004974365234375,
2740
+ "learning_rate": 5.022222222222223e-06,
2741
+ "loss": 0.0274,
2742
+ "step": 3870
2743
+ },
2744
+ {
2745
+ "epoch": 1.22,
2746
+ "grad_norm": 0.00121307373046875,
2747
+ "learning_rate": 4.977777777777778e-06,
2748
+ "loss": 0.0252,
2749
+ "step": 3880
2750
+ },
2751
+ {
2752
+ "epoch": 1.22,
2753
+ "grad_norm": 5.375,
2754
+ "learning_rate": 4.933333333333334e-06,
2755
+ "loss": 0.0097,
2756
+ "step": 3890
2757
+ },
2758
+ {
2759
+ "epoch": 1.22,
2760
+ "grad_norm": 3.140625,
2761
+ "learning_rate": 4.888888888888889e-06,
2762
+ "loss": 0.0514,
2763
+ "step": 3900
2764
+ },
2765
+ {
2766
+ "epoch": 1.23,
2767
+ "grad_norm": 0.00106048583984375,
2768
+ "learning_rate": 4.8444444444444446e-06,
2769
+ "loss": 0.0011,
2770
+ "step": 3910
2771
+ },
2772
+ {
2773
+ "epoch": 1.23,
2774
+ "grad_norm": 0.01080322265625,
2775
+ "learning_rate": 4.800000000000001e-06,
2776
+ "loss": 0.0516,
2777
+ "step": 3920
2778
+ },
2779
+ {
2780
+ "epoch": 1.23,
2781
+ "grad_norm": 5.28125,
2782
+ "learning_rate": 4.755555555555556e-06,
2783
+ "loss": 0.008,
2784
+ "step": 3930
2785
+ },
2786
+ {
2787
+ "epoch": 1.23,
2788
+ "grad_norm": 0.00179290771484375,
2789
+ "learning_rate": 4.711111111111111e-06,
2790
+ "loss": 0.0,
2791
+ "step": 3940
2792
+ },
2793
+ {
2794
+ "epoch": 1.24,
2795
+ "grad_norm": 0.0020599365234375,
2796
+ "learning_rate": 4.666666666666667e-06,
2797
+ "loss": 0.0178,
2798
+ "step": 3950
2799
+ },
2800
+ {
2801
+ "epoch": 1.24,
2802
+ "grad_norm": 0.00738525390625,
2803
+ "learning_rate": 4.622222222222222e-06,
2804
+ "loss": 0.0338,
2805
+ "step": 3960
2806
+ },
2807
+ {
2808
+ "epoch": 1.24,
2809
+ "grad_norm": 0.00139617919921875,
2810
+ "learning_rate": 4.5777777777777785e-06,
2811
+ "loss": 0.0596,
2812
+ "step": 3970
2813
+ },
2814
+ {
2815
+ "epoch": 1.25,
2816
+ "grad_norm": 0.00102996826171875,
2817
+ "learning_rate": 4.533333333333334e-06,
2818
+ "loss": 0.0197,
2819
+ "step": 3980
2820
+ },
2821
+ {
2822
+ "epoch": 1.25,
2823
+ "grad_norm": 2.515625,
2824
+ "learning_rate": 4.488888888888889e-06,
2825
+ "loss": 0.0032,
2826
+ "step": 3990
2827
+ },
2828
+ {
2829
+ "epoch": 1.25,
2830
+ "grad_norm": 0.0625,
2831
+ "learning_rate": 4.444444444444444e-06,
2832
+ "loss": 0.0176,
2833
+ "step": 4000
2834
+ },
2835
+ {
2836
+ "epoch": 1.25,
2837
+ "eval_loss": 0.018360020592808723,
2838
+ "eval_runtime": 53.5697,
2839
+ "eval_samples_per_second": 18.667,
2840
+ "eval_steps_per_second": 18.667,
2841
+ "step": 4000
2842
  }
2843
  ],
2844
  "logging_steps": 10,
 
2846
  "num_input_tokens_seen": 0,
2847
  "num_train_epochs": 2,
2848
  "save_steps": 1000,
2849
+ "total_flos": 6.2934793322496e+16,
2850
  "train_batch_size": 1,
2851
  "trial_name": null,
2852
  "trial_params": null