UltimoUno commited on
Commit
51cec76
1 Parent(s): 0d275f8

Uploaded checkpoint-4000

Browse files
Files changed (5) hide show
  1. model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. rng_state.pth +1 -1
  4. scheduler.pt +1 -1
  5. trainer_state.json +711 -3
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7b7cb2f47cd38e6383f75f3414a8a23b1ecd4968b1bb9dfd8b1057ae5f8584b2
3
  size 2692969128
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3201017b6d299d8c2cb5eff8dfb87a841857ac5b48a904337a63577b57e72464
3
  size 2692969128
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7a37508368a64e93757105266e012ac04351eb16612969f0665a75aeb13c0d8d
3
  size 5386075202
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0bc91b5189b6a58b603e0148037300250d28c3b0c30d72a7e486062f8ab49769
3
  size 5386075202
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ee3528bf0ace792176d57cac1ea8e325db1e81a8856e3e8a6e53688b51f9516e
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1c92a95a97d689d636b085d406167a1d143dce26fb83ee64d21cf4b37a120302
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:770db92ac44ccb712216aece2abb8a41e68fd6d952c7ae7884e9032fb3cc3f81
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2f80b0441e18382140898e5947e4bf00161c8985bfd13094069daa8dad861cc8
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 0.01655612699687481,
3
  "best_model_checkpoint": "runs/deepseek_20240423-162824/checkpoint-3000",
4
- "epoch": 0.9399232396020991,
5
  "eval_steps": 1000,
6
- "global_step": 3000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2131,6 +2131,714 @@
2131
  "eval_samples_per_second": 18.745,
2132
  "eval_steps_per_second": 18.745,
2133
  "step": 3000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2134
  }
2135
  ],
2136
  "logging_steps": 10,
@@ -2138,7 +2846,7 @@
2138
  "num_input_tokens_seen": 0,
2139
  "num_train_epochs": 2,
2140
  "save_steps": 1000,
2141
- "total_flos": 4.7201094991872e+16,
2142
  "train_batch_size": 1,
2143
  "trial_name": null,
2144
  "trial_params": null
 
1
  {
2
  "best_metric": 0.01655612699687481,
3
  "best_model_checkpoint": "runs/deepseek_20240423-162824/checkpoint-3000",
4
+ "epoch": 1.2532309861361322,
5
  "eval_steps": 1000,
6
+ "global_step": 4000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2131
  "eval_samples_per_second": 18.745,
2132
  "eval_steps_per_second": 18.745,
2133
  "step": 3000
2134
+ },
2135
+ {
2136
+ "epoch": 0.94,
2137
+ "grad_norm": 10.6875,
2138
+ "learning_rate": 8.844444444444445e-06,
2139
+ "loss": 0.137,
2140
+ "step": 3010
2141
+ },
2142
+ {
2143
+ "epoch": 0.95,
2144
+ "grad_norm": 0.00127410888671875,
2145
+ "learning_rate": 8.8e-06,
2146
+ "loss": 0.0456,
2147
+ "step": 3020
2148
+ },
2149
+ {
2150
+ "epoch": 0.95,
2151
+ "grad_norm": 0.003204345703125,
2152
+ "learning_rate": 8.755555555555556e-06,
2153
+ "loss": 0.0133,
2154
+ "step": 3030
2155
+ },
2156
+ {
2157
+ "epoch": 0.95,
2158
+ "grad_norm": 8.625,
2159
+ "learning_rate": 8.711111111111111e-06,
2160
+ "loss": 0.1079,
2161
+ "step": 3040
2162
+ },
2163
+ {
2164
+ "epoch": 0.96,
2165
+ "grad_norm": 0.004791259765625,
2166
+ "learning_rate": 8.666666666666668e-06,
2167
+ "loss": 0.0327,
2168
+ "step": 3050
2169
+ },
2170
+ {
2171
+ "epoch": 0.96,
2172
+ "grad_norm": 0.004150390625,
2173
+ "learning_rate": 8.622222222222223e-06,
2174
+ "loss": 0.0525,
2175
+ "step": 3060
2176
+ },
2177
+ {
2178
+ "epoch": 0.96,
2179
+ "grad_norm": 8.9375,
2180
+ "learning_rate": 8.577777777777778e-06,
2181
+ "loss": 0.0584,
2182
+ "step": 3070
2183
+ },
2184
+ {
2185
+ "epoch": 0.96,
2186
+ "grad_norm": 0.00131988525390625,
2187
+ "learning_rate": 8.533333333333335e-06,
2188
+ "loss": 0.0406,
2189
+ "step": 3080
2190
+ },
2191
+ {
2192
+ "epoch": 0.97,
2193
+ "grad_norm": 14.0,
2194
+ "learning_rate": 8.48888888888889e-06,
2195
+ "loss": 0.0195,
2196
+ "step": 3090
2197
+ },
2198
+ {
2199
+ "epoch": 0.97,
2200
+ "grad_norm": 0.001373291015625,
2201
+ "learning_rate": 8.444444444444446e-06,
2202
+ "loss": 0.0571,
2203
+ "step": 3100
2204
+ },
2205
+ {
2206
+ "epoch": 0.97,
2207
+ "grad_norm": 0.00469970703125,
2208
+ "learning_rate": 8.400000000000001e-06,
2209
+ "loss": 0.1144,
2210
+ "step": 3110
2211
+ },
2212
+ {
2213
+ "epoch": 0.98,
2214
+ "grad_norm": 0.03759765625,
2215
+ "learning_rate": 8.355555555555556e-06,
2216
+ "loss": 0.0206,
2217
+ "step": 3120
2218
+ },
2219
+ {
2220
+ "epoch": 0.98,
2221
+ "grad_norm": 0.0027618408203125,
2222
+ "learning_rate": 8.311111111111111e-06,
2223
+ "loss": 0.0463,
2224
+ "step": 3130
2225
+ },
2226
+ {
2227
+ "epoch": 0.98,
2228
+ "grad_norm": 0.00156402587890625,
2229
+ "learning_rate": 8.266666666666667e-06,
2230
+ "loss": 0.079,
2231
+ "step": 3140
2232
+ },
2233
+ {
2234
+ "epoch": 0.99,
2235
+ "grad_norm": 12.875,
2236
+ "learning_rate": 8.222222222222222e-06,
2237
+ "loss": 0.0177,
2238
+ "step": 3150
2239
+ },
2240
+ {
2241
+ "epoch": 0.99,
2242
+ "grad_norm": 0.004547119140625,
2243
+ "learning_rate": 8.177777777777779e-06,
2244
+ "loss": 0.0287,
2245
+ "step": 3160
2246
+ },
2247
+ {
2248
+ "epoch": 0.99,
2249
+ "grad_norm": 0.00136566162109375,
2250
+ "learning_rate": 8.133333333333334e-06,
2251
+ "loss": 0.0063,
2252
+ "step": 3170
2253
+ },
2254
+ {
2255
+ "epoch": 1.0,
2256
+ "grad_norm": 0.00140380859375,
2257
+ "learning_rate": 8.08888888888889e-06,
2258
+ "loss": 0.0575,
2259
+ "step": 3180
2260
+ },
2261
+ {
2262
+ "epoch": 1.0,
2263
+ "grad_norm": 0.00157928466796875,
2264
+ "learning_rate": 8.044444444444444e-06,
2265
+ "loss": 0.0281,
2266
+ "step": 3190
2267
+ },
2268
+ {
2269
+ "epoch": 1.0,
2270
+ "grad_norm": 4.34375,
2271
+ "learning_rate": 8.000000000000001e-06,
2272
+ "loss": 0.0165,
2273
+ "step": 3200
2274
+ },
2275
+ {
2276
+ "epoch": 1.01,
2277
+ "grad_norm": 1.2109375,
2278
+ "learning_rate": 7.955555555555557e-06,
2279
+ "loss": 0.0136,
2280
+ "step": 3210
2281
+ },
2282
+ {
2283
+ "epoch": 1.01,
2284
+ "grad_norm": 28.875,
2285
+ "learning_rate": 7.911111111111112e-06,
2286
+ "loss": 0.0679,
2287
+ "step": 3220
2288
+ },
2289
+ {
2290
+ "epoch": 1.01,
2291
+ "grad_norm": 0.001251220703125,
2292
+ "learning_rate": 7.866666666666667e-06,
2293
+ "loss": 0.0122,
2294
+ "step": 3230
2295
+ },
2296
+ {
2297
+ "epoch": 1.02,
2298
+ "grad_norm": 3.703125,
2299
+ "learning_rate": 7.822222222222224e-06,
2300
+ "loss": 0.0085,
2301
+ "step": 3240
2302
+ },
2303
+ {
2304
+ "epoch": 1.02,
2305
+ "grad_norm": 0.00482177734375,
2306
+ "learning_rate": 7.77777777777778e-06,
2307
+ "loss": 0.0195,
2308
+ "step": 3250
2309
+ },
2310
+ {
2311
+ "epoch": 1.02,
2312
+ "grad_norm": 0.06396484375,
2313
+ "learning_rate": 7.733333333333334e-06,
2314
+ "loss": 0.0234,
2315
+ "step": 3260
2316
+ },
2317
+ {
2318
+ "epoch": 1.02,
2319
+ "grad_norm": 4.71875,
2320
+ "learning_rate": 7.68888888888889e-06,
2321
+ "loss": 0.0451,
2322
+ "step": 3270
2323
+ },
2324
+ {
2325
+ "epoch": 1.03,
2326
+ "grad_norm": 0.00148773193359375,
2327
+ "learning_rate": 7.644444444444445e-06,
2328
+ "loss": 0.0098,
2329
+ "step": 3280
2330
+ },
2331
+ {
2332
+ "epoch": 1.03,
2333
+ "grad_norm": 0.002532958984375,
2334
+ "learning_rate": 7.600000000000001e-06,
2335
+ "loss": 0.0034,
2336
+ "step": 3290
2337
+ },
2338
+ {
2339
+ "epoch": 1.03,
2340
+ "grad_norm": 0.0027923583984375,
2341
+ "learning_rate": 7.555555555555556e-06,
2342
+ "loss": 0.01,
2343
+ "step": 3300
2344
+ },
2345
+ {
2346
+ "epoch": 1.04,
2347
+ "grad_norm": 3.5,
2348
+ "learning_rate": 7.511111111111111e-06,
2349
+ "loss": 0.0269,
2350
+ "step": 3310
2351
+ },
2352
+ {
2353
+ "epoch": 1.04,
2354
+ "grad_norm": 0.00124359130859375,
2355
+ "learning_rate": 7.4666666666666675e-06,
2356
+ "loss": 0.018,
2357
+ "step": 3320
2358
+ },
2359
+ {
2360
+ "epoch": 1.04,
2361
+ "grad_norm": 8.75,
2362
+ "learning_rate": 7.422222222222223e-06,
2363
+ "loss": 0.1035,
2364
+ "step": 3330
2365
+ },
2366
+ {
2367
+ "epoch": 1.05,
2368
+ "grad_norm": 13.875,
2369
+ "learning_rate": 7.377777777777778e-06,
2370
+ "loss": 0.0368,
2371
+ "step": 3340
2372
+ },
2373
+ {
2374
+ "epoch": 1.05,
2375
+ "grad_norm": 0.004608154296875,
2376
+ "learning_rate": 7.333333333333333e-06,
2377
+ "loss": 0.0243,
2378
+ "step": 3350
2379
+ },
2380
+ {
2381
+ "epoch": 1.05,
2382
+ "grad_norm": 0.00146484375,
2383
+ "learning_rate": 7.28888888888889e-06,
2384
+ "loss": 0.0177,
2385
+ "step": 3360
2386
+ },
2387
+ {
2388
+ "epoch": 1.06,
2389
+ "grad_norm": 0.0014190673828125,
2390
+ "learning_rate": 7.244444444444445e-06,
2391
+ "loss": 0.0426,
2392
+ "step": 3370
2393
+ },
2394
+ {
2395
+ "epoch": 1.06,
2396
+ "grad_norm": 0.004913330078125,
2397
+ "learning_rate": 7.2000000000000005e-06,
2398
+ "loss": 0.0506,
2399
+ "step": 3380
2400
+ },
2401
+ {
2402
+ "epoch": 1.06,
2403
+ "grad_norm": 9.125,
2404
+ "learning_rate": 7.155555555555556e-06,
2405
+ "loss": 0.0113,
2406
+ "step": 3390
2407
+ },
2408
+ {
2409
+ "epoch": 1.07,
2410
+ "grad_norm": 0.0015716552734375,
2411
+ "learning_rate": 7.111111111111112e-06,
2412
+ "loss": 0.0075,
2413
+ "step": 3400
2414
+ },
2415
+ {
2416
+ "epoch": 1.07,
2417
+ "grad_norm": 9.9375,
2418
+ "learning_rate": 7.066666666666667e-06,
2419
+ "loss": 0.0188,
2420
+ "step": 3410
2421
+ },
2422
+ {
2423
+ "epoch": 1.07,
2424
+ "grad_norm": 0.001312255859375,
2425
+ "learning_rate": 7.022222222222222e-06,
2426
+ "loss": 0.0017,
2427
+ "step": 3420
2428
+ },
2429
+ {
2430
+ "epoch": 1.07,
2431
+ "grad_norm": 0.001251220703125,
2432
+ "learning_rate": 6.977777777777779e-06,
2433
+ "loss": 0.0339,
2434
+ "step": 3430
2435
+ },
2436
+ {
2437
+ "epoch": 1.08,
2438
+ "grad_norm": 0.00262451171875,
2439
+ "learning_rate": 6.9333333333333344e-06,
2440
+ "loss": 0.0326,
2441
+ "step": 3440
2442
+ },
2443
+ {
2444
+ "epoch": 1.08,
2445
+ "grad_norm": 0.004547119140625,
2446
+ "learning_rate": 6.88888888888889e-06,
2447
+ "loss": 0.0145,
2448
+ "step": 3450
2449
+ },
2450
+ {
2451
+ "epoch": 1.08,
2452
+ "grad_norm": 0.00107574462890625,
2453
+ "learning_rate": 6.844444444444445e-06,
2454
+ "loss": 0.0126,
2455
+ "step": 3460
2456
+ },
2457
+ {
2458
+ "epoch": 1.09,
2459
+ "grad_norm": 0.875,
2460
+ "learning_rate": 6.800000000000001e-06,
2461
+ "loss": 0.0141,
2462
+ "step": 3470
2463
+ },
2464
+ {
2465
+ "epoch": 1.09,
2466
+ "grad_norm": 7.59375,
2467
+ "learning_rate": 6.755555555555556e-06,
2468
+ "loss": 0.0301,
2469
+ "step": 3480
2470
+ },
2471
+ {
2472
+ "epoch": 1.09,
2473
+ "grad_norm": 7.75,
2474
+ "learning_rate": 6.711111111111111e-06,
2475
+ "loss": 0.0432,
2476
+ "step": 3490
2477
+ },
2478
+ {
2479
+ "epoch": 1.1,
2480
+ "grad_norm": 0.0010528564453125,
2481
+ "learning_rate": 6.666666666666667e-06,
2482
+ "loss": 0.0335,
2483
+ "step": 3500
2484
+ },
2485
+ {
2486
+ "epoch": 1.1,
2487
+ "grad_norm": 0.0048828125,
2488
+ "learning_rate": 6.6222222222222236e-06,
2489
+ "loss": 0.0616,
2490
+ "step": 3510
2491
+ },
2492
+ {
2493
+ "epoch": 1.1,
2494
+ "grad_norm": 0.001312255859375,
2495
+ "learning_rate": 6.577777777777779e-06,
2496
+ "loss": 0.0144,
2497
+ "step": 3520
2498
+ },
2499
+ {
2500
+ "epoch": 1.11,
2501
+ "grad_norm": 2.5,
2502
+ "learning_rate": 6.533333333333334e-06,
2503
+ "loss": 0.0415,
2504
+ "step": 3530
2505
+ },
2506
+ {
2507
+ "epoch": 1.11,
2508
+ "grad_norm": 0.004730224609375,
2509
+ "learning_rate": 6.488888888888889e-06,
2510
+ "loss": 0.0315,
2511
+ "step": 3540
2512
+ },
2513
+ {
2514
+ "epoch": 1.11,
2515
+ "grad_norm": 0.00128173828125,
2516
+ "learning_rate": 6.444444444444445e-06,
2517
+ "loss": 0.0051,
2518
+ "step": 3550
2519
+ },
2520
+ {
2521
+ "epoch": 1.12,
2522
+ "grad_norm": 0.00115966796875,
2523
+ "learning_rate": 6.4000000000000006e-06,
2524
+ "loss": 0.0411,
2525
+ "step": 3560
2526
+ },
2527
+ {
2528
+ "epoch": 1.12,
2529
+ "grad_norm": 0.0010528564453125,
2530
+ "learning_rate": 6.355555555555556e-06,
2531
+ "loss": 0.0271,
2532
+ "step": 3570
2533
+ },
2534
+ {
2535
+ "epoch": 1.12,
2536
+ "grad_norm": 0.00482177734375,
2537
+ "learning_rate": 6.311111111111111e-06,
2538
+ "loss": 0.0172,
2539
+ "step": 3580
2540
+ },
2541
+ {
2542
+ "epoch": 1.12,
2543
+ "grad_norm": 0.0027008056640625,
2544
+ "learning_rate": 6.266666666666668e-06,
2545
+ "loss": 0.0062,
2546
+ "step": 3590
2547
+ },
2548
+ {
2549
+ "epoch": 1.13,
2550
+ "grad_norm": 6.84375,
2551
+ "learning_rate": 6.222222222222223e-06,
2552
+ "loss": 0.0234,
2553
+ "step": 3600
2554
+ },
2555
+ {
2556
+ "epoch": 1.13,
2557
+ "grad_norm": 0.0023345947265625,
2558
+ "learning_rate": 6.177777777777778e-06,
2559
+ "loss": 0.0,
2560
+ "step": 3610
2561
+ },
2562
+ {
2563
+ "epoch": 1.13,
2564
+ "grad_norm": 0.00115966796875,
2565
+ "learning_rate": 6.133333333333334e-06,
2566
+ "loss": 0.0194,
2567
+ "step": 3620
2568
+ },
2569
+ {
2570
+ "epoch": 1.14,
2571
+ "grad_norm": 0.1376953125,
2572
+ "learning_rate": 6.08888888888889e-06,
2573
+ "loss": 0.0088,
2574
+ "step": 3630
2575
+ },
2576
+ {
2577
+ "epoch": 1.14,
2578
+ "grad_norm": 0.203125,
2579
+ "learning_rate": 6.044444444444445e-06,
2580
+ "loss": 0.0339,
2581
+ "step": 3640
2582
+ },
2583
+ {
2584
+ "epoch": 1.14,
2585
+ "grad_norm": 15.25,
2586
+ "learning_rate": 6e-06,
2587
+ "loss": 0.0362,
2588
+ "step": 3650
2589
+ },
2590
+ {
2591
+ "epoch": 1.15,
2592
+ "grad_norm": 4.375,
2593
+ "learning_rate": 5.955555555555555e-06,
2594
+ "loss": 0.0335,
2595
+ "step": 3660
2596
+ },
2597
+ {
2598
+ "epoch": 1.15,
2599
+ "grad_norm": 3.5,
2600
+ "learning_rate": 5.911111111111112e-06,
2601
+ "loss": 0.0254,
2602
+ "step": 3670
2603
+ },
2604
+ {
2605
+ "epoch": 1.15,
2606
+ "grad_norm": 0.000949859619140625,
2607
+ "learning_rate": 5.8666666666666675e-06,
2608
+ "loss": 0.0173,
2609
+ "step": 3680
2610
+ },
2611
+ {
2612
+ "epoch": 1.16,
2613
+ "grad_norm": 5.125,
2614
+ "learning_rate": 5.822222222222223e-06,
2615
+ "loss": 0.0677,
2616
+ "step": 3690
2617
+ },
2618
+ {
2619
+ "epoch": 1.16,
2620
+ "grad_norm": 9.75,
2621
+ "learning_rate": 5.777777777777778e-06,
2622
+ "loss": 0.0162,
2623
+ "step": 3700
2624
+ },
2625
+ {
2626
+ "epoch": 1.16,
2627
+ "grad_norm": 0.002288818359375,
2628
+ "learning_rate": 5.733333333333334e-06,
2629
+ "loss": 0.0334,
2630
+ "step": 3710
2631
+ },
2632
+ {
2633
+ "epoch": 1.17,
2634
+ "grad_norm": 0.0230712890625,
2635
+ "learning_rate": 5.688888888888889e-06,
2636
+ "loss": 0.0673,
2637
+ "step": 3720
2638
+ },
2639
+ {
2640
+ "epoch": 1.17,
2641
+ "grad_norm": 0.0010986328125,
2642
+ "learning_rate": 5.6444444444444445e-06,
2643
+ "loss": 0.0189,
2644
+ "step": 3730
2645
+ },
2646
+ {
2647
+ "epoch": 1.17,
2648
+ "grad_norm": 0.00095367431640625,
2649
+ "learning_rate": 5.600000000000001e-06,
2650
+ "loss": 0.0493,
2651
+ "step": 3740
2652
+ },
2653
+ {
2654
+ "epoch": 1.17,
2655
+ "grad_norm": 0.0093994140625,
2656
+ "learning_rate": 5.555555555555557e-06,
2657
+ "loss": 0.032,
2658
+ "step": 3750
2659
+ },
2660
+ {
2661
+ "epoch": 1.18,
2662
+ "grad_norm": 0.00119781494140625,
2663
+ "learning_rate": 5.511111111111112e-06,
2664
+ "loss": 0.0201,
2665
+ "step": 3760
2666
+ },
2667
+ {
2668
+ "epoch": 1.18,
2669
+ "grad_norm": 0.00225830078125,
2670
+ "learning_rate": 5.466666666666667e-06,
2671
+ "loss": 0.0928,
2672
+ "step": 3770
2673
+ },
2674
+ {
2675
+ "epoch": 1.18,
2676
+ "grad_norm": 0.0045166015625,
2677
+ "learning_rate": 5.422222222222223e-06,
2678
+ "loss": 0.0048,
2679
+ "step": 3780
2680
+ },
2681
+ {
2682
+ "epoch": 1.19,
2683
+ "grad_norm": 0.1513671875,
2684
+ "learning_rate": 5.3777777777777784e-06,
2685
+ "loss": 0.023,
2686
+ "step": 3790
2687
+ },
2688
+ {
2689
+ "epoch": 1.19,
2690
+ "grad_norm": 2.875,
2691
+ "learning_rate": 5.333333333333334e-06,
2692
+ "loss": 0.0134,
2693
+ "step": 3800
2694
+ },
2695
+ {
2696
+ "epoch": 1.19,
2697
+ "grad_norm": 0.00146484375,
2698
+ "learning_rate": 5.288888888888889e-06,
2699
+ "loss": 0.0063,
2700
+ "step": 3810
2701
+ },
2702
+ {
2703
+ "epoch": 1.2,
2704
+ "grad_norm": 0.001007080078125,
2705
+ "learning_rate": 5.244444444444445e-06,
2706
+ "loss": 0.0241,
2707
+ "step": 3820
2708
+ },
2709
+ {
2710
+ "epoch": 1.2,
2711
+ "grad_norm": 0.01483154296875,
2712
+ "learning_rate": 5.2e-06,
2713
+ "loss": 0.0124,
2714
+ "step": 3830
2715
+ },
2716
+ {
2717
+ "epoch": 1.2,
2718
+ "grad_norm": 0.00433349609375,
2719
+ "learning_rate": 5.155555555555556e-06,
2720
+ "loss": 0.0231,
2721
+ "step": 3840
2722
+ },
2723
+ {
2724
+ "epoch": 1.21,
2725
+ "grad_norm": 0.00201416015625,
2726
+ "learning_rate": 5.1111111111111115e-06,
2727
+ "loss": 0.0001,
2728
+ "step": 3850
2729
+ },
2730
+ {
2731
+ "epoch": 1.21,
2732
+ "grad_norm": 4.375,
2733
+ "learning_rate": 5.0666666666666676e-06,
2734
+ "loss": 0.0294,
2735
+ "step": 3860
2736
+ },
2737
+ {
2738
+ "epoch": 1.21,
2739
+ "grad_norm": 0.004547119140625,
2740
+ "learning_rate": 5.022222222222223e-06,
2741
+ "loss": 0.0379,
2742
+ "step": 3870
2743
+ },
2744
+ {
2745
+ "epoch": 1.22,
2746
+ "grad_norm": 0.0010223388671875,
2747
+ "learning_rate": 4.977777777777778e-06,
2748
+ "loss": 0.0284,
2749
+ "step": 3880
2750
+ },
2751
+ {
2752
+ "epoch": 1.22,
2753
+ "grad_norm": 4.8125,
2754
+ "learning_rate": 4.933333333333334e-06,
2755
+ "loss": 0.0131,
2756
+ "step": 3890
2757
+ },
2758
+ {
2759
+ "epoch": 1.22,
2760
+ "grad_norm": 3.9375,
2761
+ "learning_rate": 4.888888888888889e-06,
2762
+ "loss": 0.0527,
2763
+ "step": 3900
2764
+ },
2765
+ {
2766
+ "epoch": 1.23,
2767
+ "grad_norm": 0.0010986328125,
2768
+ "learning_rate": 4.8444444444444446e-06,
2769
+ "loss": 0.0002,
2770
+ "step": 3910
2771
+ },
2772
+ {
2773
+ "epoch": 1.23,
2774
+ "grad_norm": 0.0035247802734375,
2775
+ "learning_rate": 4.800000000000001e-06,
2776
+ "loss": 0.0455,
2777
+ "step": 3920
2778
+ },
2779
+ {
2780
+ "epoch": 1.23,
2781
+ "grad_norm": 8.125,
2782
+ "learning_rate": 4.755555555555556e-06,
2783
+ "loss": 0.0104,
2784
+ "step": 3930
2785
+ },
2786
+ {
2787
+ "epoch": 1.23,
2788
+ "grad_norm": 0.00156402587890625,
2789
+ "learning_rate": 4.711111111111111e-06,
2790
+ "loss": 0.0,
2791
+ "step": 3940
2792
+ },
2793
+ {
2794
+ "epoch": 1.24,
2795
+ "grad_norm": 0.0026397705078125,
2796
+ "learning_rate": 4.666666666666667e-06,
2797
+ "loss": 0.0191,
2798
+ "step": 3950
2799
+ },
2800
+ {
2801
+ "epoch": 1.24,
2802
+ "grad_norm": 0.0037689208984375,
2803
+ "learning_rate": 4.622222222222222e-06,
2804
+ "loss": 0.0288,
2805
+ "step": 3960
2806
+ },
2807
+ {
2808
+ "epoch": 1.24,
2809
+ "grad_norm": 0.00135040283203125,
2810
+ "learning_rate": 4.5777777777777785e-06,
2811
+ "loss": 0.0519,
2812
+ "step": 3970
2813
+ },
2814
+ {
2815
+ "epoch": 1.25,
2816
+ "grad_norm": 0.00106048583984375,
2817
+ "learning_rate": 4.533333333333334e-06,
2818
+ "loss": 0.0175,
2819
+ "step": 3980
2820
+ },
2821
+ {
2822
+ "epoch": 1.25,
2823
+ "grad_norm": 7.0,
2824
+ "learning_rate": 4.488888888888889e-06,
2825
+ "loss": 0.0066,
2826
+ "step": 3990
2827
+ },
2828
+ {
2829
+ "epoch": 1.25,
2830
+ "grad_norm": 0.0308837890625,
2831
+ "learning_rate": 4.444444444444444e-06,
2832
+ "loss": 0.0253,
2833
+ "step": 4000
2834
+ },
2835
+ {
2836
+ "epoch": 1.25,
2837
+ "eval_loss": 0.019900379702448845,
2838
+ "eval_runtime": 53.4572,
2839
+ "eval_samples_per_second": 18.707,
2840
+ "eval_steps_per_second": 18.707,
2841
+ "step": 4000
2842
  }
2843
  ],
2844
  "logging_steps": 10,
 
2846
  "num_input_tokens_seen": 0,
2847
  "num_train_epochs": 2,
2848
  "save_steps": 1000,
2849
+ "total_flos": 6.2934793322496e+16,
2850
  "train_batch_size": 1,
2851
  "trial_name": null,
2852
  "trial_params": null