jdannem6 commited on
Commit
239714f
1 Parent(s): d3315c9

Uploaded checkpoint-4000

Browse files
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:62872446dd68a11022c82656dd80183dd34c09e92c29d79491b5aa450e74f22f
3
  size 119975656
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2d4eb90551ea9a47650c616fefa08bde3498e3b4acb5a14595ee91277392353d
3
  size 119975656
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a75c8fefe10021904a2546c5f68c5efa8f9bcf35bb732e559d62b4c792c9dbbb
3
  size 240145026
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d5420133932cd8928dc252e0240f1238ce1a1686b581743ea2e0e35fe0975cd0
3
  size 240145026
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f7eeee07b40fef8c7bdf027c427b1fc8d6a45d979762d8d637d73e82015e5add
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b90bc42e5601a089b4f97e9c36e907416b25c070b74e200626385618b0995aae
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:770db92ac44ccb712216aece2abb8a41e68fd6d952c7ae7884e9032fb3cc3f81
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2f80b0441e18382140898e5947e4bf00161c8985bfd13094069daa8dad861cc8
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 0.018313532695174217,
3
  "best_model_checkpoint": "runs/deepseek_lora_20240423-133229/checkpoint-2000",
4
- "epoch": 0.9399232396020991,
5
  "eval_steps": 500,
6
- "global_step": 3000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2155,6 +2155,722 @@
2155
  "eval_samples_per_second": 16.102,
2156
  "eval_steps_per_second": 16.102,
2157
  "step": 3000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2158
  }
2159
  ],
2160
  "logging_steps": 10,
@@ -2162,7 +2878,7 @@
2162
  "num_input_tokens_seen": 0,
2163
  "num_train_epochs": 2,
2164
  "save_steps": 1000,
2165
- "total_flos": 4.8306377981952e+16,
2166
  "train_batch_size": 1,
2167
  "trial_name": null,
2168
  "trial_params": null
 
1
  {
2
  "best_metric": 0.018313532695174217,
3
  "best_model_checkpoint": "runs/deepseek_lora_20240423-133229/checkpoint-2000",
4
+ "epoch": 1.2532309861361322,
5
  "eval_steps": 500,
6
+ "global_step": 4000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2155
  "eval_samples_per_second": 16.102,
2156
  "eval_steps_per_second": 16.102,
2157
  "step": 3000
2158
+ },
2159
+ {
2160
+ "epoch": 0.94,
2161
+ "grad_norm": 1.89267098903656,
2162
+ "learning_rate": 8.844444444444445e-06,
2163
+ "loss": 0.1307,
2164
+ "step": 3010
2165
+ },
2166
+ {
2167
+ "epoch": 0.95,
2168
+ "grad_norm": 0.0008318617474287748,
2169
+ "learning_rate": 8.8e-06,
2170
+ "loss": 0.0331,
2171
+ "step": 3020
2172
+ },
2173
+ {
2174
+ "epoch": 0.95,
2175
+ "grad_norm": 0.00299050472676754,
2176
+ "learning_rate": 8.755555555555556e-06,
2177
+ "loss": 0.0166,
2178
+ "step": 3030
2179
+ },
2180
+ {
2181
+ "epoch": 0.95,
2182
+ "grad_norm": 3.3594794273376465,
2183
+ "learning_rate": 8.711111111111111e-06,
2184
+ "loss": 0.1204,
2185
+ "step": 3040
2186
+ },
2187
+ {
2188
+ "epoch": 0.96,
2189
+ "grad_norm": 0.039698030799627304,
2190
+ "learning_rate": 8.666666666666668e-06,
2191
+ "loss": 0.0397,
2192
+ "step": 3050
2193
+ },
2194
+ {
2195
+ "epoch": 0.96,
2196
+ "grad_norm": 0.0027413545176386833,
2197
+ "learning_rate": 8.622222222222223e-06,
2198
+ "loss": 0.0555,
2199
+ "step": 3060
2200
+ },
2201
+ {
2202
+ "epoch": 0.96,
2203
+ "grad_norm": 1.7610267400741577,
2204
+ "learning_rate": 8.577777777777778e-06,
2205
+ "loss": 0.0595,
2206
+ "step": 3070
2207
+ },
2208
+ {
2209
+ "epoch": 0.96,
2210
+ "grad_norm": 0.001599436509422958,
2211
+ "learning_rate": 8.533333333333335e-06,
2212
+ "loss": 0.0525,
2213
+ "step": 3080
2214
+ },
2215
+ {
2216
+ "epoch": 0.97,
2217
+ "grad_norm": 3.3269574642181396,
2218
+ "learning_rate": 8.48888888888889e-06,
2219
+ "loss": 0.0149,
2220
+ "step": 3090
2221
+ },
2222
+ {
2223
+ "epoch": 0.97,
2224
+ "grad_norm": 0.0009359756950289011,
2225
+ "learning_rate": 8.444444444444446e-06,
2226
+ "loss": 0.0772,
2227
+ "step": 3100
2228
+ },
2229
+ {
2230
+ "epoch": 0.97,
2231
+ "grad_norm": 0.002731655491515994,
2232
+ "learning_rate": 8.400000000000001e-06,
2233
+ "loss": 0.1128,
2234
+ "step": 3110
2235
+ },
2236
+ {
2237
+ "epoch": 0.98,
2238
+ "grad_norm": 0.01761116273701191,
2239
+ "learning_rate": 8.355555555555556e-06,
2240
+ "loss": 0.0228,
2241
+ "step": 3120
2242
+ },
2243
+ {
2244
+ "epoch": 0.98,
2245
+ "grad_norm": 0.0019919571932405233,
2246
+ "learning_rate": 8.311111111111111e-06,
2247
+ "loss": 0.0389,
2248
+ "step": 3130
2249
+ },
2250
+ {
2251
+ "epoch": 0.98,
2252
+ "grad_norm": 0.0010057106846943498,
2253
+ "learning_rate": 8.266666666666667e-06,
2254
+ "loss": 0.1025,
2255
+ "step": 3140
2256
+ },
2257
+ {
2258
+ "epoch": 0.99,
2259
+ "grad_norm": 1.3677994012832642,
2260
+ "learning_rate": 8.222222222222222e-06,
2261
+ "loss": 0.0159,
2262
+ "step": 3150
2263
+ },
2264
+ {
2265
+ "epoch": 0.99,
2266
+ "grad_norm": 0.0024271418806165457,
2267
+ "learning_rate": 8.177777777777779e-06,
2268
+ "loss": 0.031,
2269
+ "step": 3160
2270
+ },
2271
+ {
2272
+ "epoch": 0.99,
2273
+ "grad_norm": 0.0010294296080246568,
2274
+ "learning_rate": 8.133333333333334e-06,
2275
+ "loss": 0.0168,
2276
+ "step": 3170
2277
+ },
2278
+ {
2279
+ "epoch": 1.0,
2280
+ "grad_norm": 0.0011234580306336284,
2281
+ "learning_rate": 8.08888888888889e-06,
2282
+ "loss": 0.058,
2283
+ "step": 3180
2284
+ },
2285
+ {
2286
+ "epoch": 1.0,
2287
+ "grad_norm": 0.0011441799579188228,
2288
+ "learning_rate": 8.044444444444444e-06,
2289
+ "loss": 0.0243,
2290
+ "step": 3190
2291
+ },
2292
+ {
2293
+ "epoch": 1.0,
2294
+ "grad_norm": 0.860286295413971,
2295
+ "learning_rate": 8.000000000000001e-06,
2296
+ "loss": 0.0128,
2297
+ "step": 3200
2298
+ },
2299
+ {
2300
+ "epoch": 1.01,
2301
+ "grad_norm": 0.7325726747512817,
2302
+ "learning_rate": 7.955555555555557e-06,
2303
+ "loss": 0.0156,
2304
+ "step": 3210
2305
+ },
2306
+ {
2307
+ "epoch": 1.01,
2308
+ "grad_norm": 2.548293352127075,
2309
+ "learning_rate": 7.911111111111112e-06,
2310
+ "loss": 0.0724,
2311
+ "step": 3220
2312
+ },
2313
+ {
2314
+ "epoch": 1.01,
2315
+ "grad_norm": 0.0010266635799780488,
2316
+ "learning_rate": 7.866666666666667e-06,
2317
+ "loss": 0.0194,
2318
+ "step": 3230
2319
+ },
2320
+ {
2321
+ "epoch": 1.02,
2322
+ "grad_norm": 0.34962719678878784,
2323
+ "learning_rate": 7.822222222222224e-06,
2324
+ "loss": 0.0086,
2325
+ "step": 3240
2326
+ },
2327
+ {
2328
+ "epoch": 1.02,
2329
+ "grad_norm": 0.0028716479428112507,
2330
+ "learning_rate": 7.77777777777778e-06,
2331
+ "loss": 0.0143,
2332
+ "step": 3250
2333
+ },
2334
+ {
2335
+ "epoch": 1.02,
2336
+ "grad_norm": 0.1319417804479599,
2337
+ "learning_rate": 7.733333333333334e-06,
2338
+ "loss": 0.0231,
2339
+ "step": 3260
2340
+ },
2341
+ {
2342
+ "epoch": 1.02,
2343
+ "grad_norm": 2.1257731914520264,
2344
+ "learning_rate": 7.68888888888889e-06,
2345
+ "loss": 0.0767,
2346
+ "step": 3270
2347
+ },
2348
+ {
2349
+ "epoch": 1.03,
2350
+ "grad_norm": 0.001123911701142788,
2351
+ "learning_rate": 7.644444444444445e-06,
2352
+ "loss": 0.0082,
2353
+ "step": 3280
2354
+ },
2355
+ {
2356
+ "epoch": 1.03,
2357
+ "grad_norm": 0.0013617794029414654,
2358
+ "learning_rate": 7.600000000000001e-06,
2359
+ "loss": 0.0003,
2360
+ "step": 3290
2361
+ },
2362
+ {
2363
+ "epoch": 1.03,
2364
+ "grad_norm": 0.0023631304502487183,
2365
+ "learning_rate": 7.555555555555556e-06,
2366
+ "loss": 0.0154,
2367
+ "step": 3300
2368
+ },
2369
+ {
2370
+ "epoch": 1.04,
2371
+ "grad_norm": 1.145058512687683,
2372
+ "learning_rate": 7.511111111111111e-06,
2373
+ "loss": 0.0369,
2374
+ "step": 3310
2375
+ },
2376
+ {
2377
+ "epoch": 1.04,
2378
+ "grad_norm": 0.0006993517745286226,
2379
+ "learning_rate": 7.4666666666666675e-06,
2380
+ "loss": 0.0195,
2381
+ "step": 3320
2382
+ },
2383
+ {
2384
+ "epoch": 1.04,
2385
+ "grad_norm": 0.5191490650177002,
2386
+ "learning_rate": 7.422222222222223e-06,
2387
+ "loss": 0.1223,
2388
+ "step": 3330
2389
+ },
2390
+ {
2391
+ "epoch": 1.05,
2392
+ "grad_norm": 4.084077835083008,
2393
+ "learning_rate": 7.377777777777778e-06,
2394
+ "loss": 0.0498,
2395
+ "step": 3340
2396
+ },
2397
+ {
2398
+ "epoch": 1.05,
2399
+ "grad_norm": 0.01493588462471962,
2400
+ "learning_rate": 7.333333333333333e-06,
2401
+ "loss": 0.0161,
2402
+ "step": 3350
2403
+ },
2404
+ {
2405
+ "epoch": 1.05,
2406
+ "grad_norm": 0.0015668733976781368,
2407
+ "learning_rate": 7.28888888888889e-06,
2408
+ "loss": 0.0276,
2409
+ "step": 3360
2410
+ },
2411
+ {
2412
+ "epoch": 1.06,
2413
+ "grad_norm": 0.0019036026205867529,
2414
+ "learning_rate": 7.244444444444445e-06,
2415
+ "loss": 0.0464,
2416
+ "step": 3370
2417
+ },
2418
+ {
2419
+ "epoch": 1.06,
2420
+ "grad_norm": 0.003628369653597474,
2421
+ "learning_rate": 7.2000000000000005e-06,
2422
+ "loss": 0.0636,
2423
+ "step": 3380
2424
+ },
2425
+ {
2426
+ "epoch": 1.06,
2427
+ "grad_norm": 4.771296501159668,
2428
+ "learning_rate": 7.155555555555556e-06,
2429
+ "loss": 0.0138,
2430
+ "step": 3390
2431
+ },
2432
+ {
2433
+ "epoch": 1.07,
2434
+ "grad_norm": 0.001274996087886393,
2435
+ "learning_rate": 7.111111111111112e-06,
2436
+ "loss": 0.0074,
2437
+ "step": 3400
2438
+ },
2439
+ {
2440
+ "epoch": 1.07,
2441
+ "grad_norm": 1.4918831586837769,
2442
+ "learning_rate": 7.066666666666667e-06,
2443
+ "loss": 0.0227,
2444
+ "step": 3410
2445
+ },
2446
+ {
2447
+ "epoch": 1.07,
2448
+ "grad_norm": 0.0008646890637464821,
2449
+ "learning_rate": 7.022222222222222e-06,
2450
+ "loss": 0.0054,
2451
+ "step": 3420
2452
+ },
2453
+ {
2454
+ "epoch": 1.07,
2455
+ "grad_norm": 0.0009093726403079927,
2456
+ "learning_rate": 6.977777777777779e-06,
2457
+ "loss": 0.0434,
2458
+ "step": 3430
2459
+ },
2460
+ {
2461
+ "epoch": 1.08,
2462
+ "grad_norm": 0.0018424297450110316,
2463
+ "learning_rate": 6.9333333333333344e-06,
2464
+ "loss": 0.0601,
2465
+ "step": 3440
2466
+ },
2467
+ {
2468
+ "epoch": 1.08,
2469
+ "grad_norm": 0.0018895555986091495,
2470
+ "learning_rate": 6.88888888888889e-06,
2471
+ "loss": 0.0056,
2472
+ "step": 3450
2473
+ },
2474
+ {
2475
+ "epoch": 1.08,
2476
+ "grad_norm": 0.0008156482363119721,
2477
+ "learning_rate": 6.844444444444445e-06,
2478
+ "loss": 0.0229,
2479
+ "step": 3460
2480
+ },
2481
+ {
2482
+ "epoch": 1.09,
2483
+ "grad_norm": 0.46498626470565796,
2484
+ "learning_rate": 6.800000000000001e-06,
2485
+ "loss": 0.0192,
2486
+ "step": 3470
2487
+ },
2488
+ {
2489
+ "epoch": 1.09,
2490
+ "grad_norm": 0.8943893909454346,
2491
+ "learning_rate": 6.755555555555556e-06,
2492
+ "loss": 0.0321,
2493
+ "step": 3480
2494
+ },
2495
+ {
2496
+ "epoch": 1.09,
2497
+ "grad_norm": 1.5523977279663086,
2498
+ "learning_rate": 6.711111111111111e-06,
2499
+ "loss": 0.0447,
2500
+ "step": 3490
2501
+ },
2502
+ {
2503
+ "epoch": 1.1,
2504
+ "grad_norm": 0.000732199230697006,
2505
+ "learning_rate": 6.666666666666667e-06,
2506
+ "loss": 0.032,
2507
+ "step": 3500
2508
+ },
2509
+ {
2510
+ "epoch": 1.1,
2511
+ "eval_loss": 0.02055978961288929,
2512
+ "eval_runtime": 62.0715,
2513
+ "eval_samples_per_second": 16.11,
2514
+ "eval_steps_per_second": 16.11,
2515
+ "step": 3500
2516
+ },
2517
+ {
2518
+ "epoch": 1.1,
2519
+ "grad_norm": 0.002656770870089531,
2520
+ "learning_rate": 6.6222222222222236e-06,
2521
+ "loss": 0.0632,
2522
+ "step": 3510
2523
+ },
2524
+ {
2525
+ "epoch": 1.1,
2526
+ "grad_norm": 0.0010300944559276104,
2527
+ "learning_rate": 6.577777777777779e-06,
2528
+ "loss": 0.0144,
2529
+ "step": 3520
2530
+ },
2531
+ {
2532
+ "epoch": 1.11,
2533
+ "grad_norm": 0.3620741367340088,
2534
+ "learning_rate": 6.533333333333334e-06,
2535
+ "loss": 0.0497,
2536
+ "step": 3530
2537
+ },
2538
+ {
2539
+ "epoch": 1.11,
2540
+ "grad_norm": 0.04097941517829895,
2541
+ "learning_rate": 6.488888888888889e-06,
2542
+ "loss": 0.025,
2543
+ "step": 3540
2544
+ },
2545
+ {
2546
+ "epoch": 1.11,
2547
+ "grad_norm": 0.0011906519066542387,
2548
+ "learning_rate": 6.444444444444445e-06,
2549
+ "loss": 0.0059,
2550
+ "step": 3550
2551
+ },
2552
+ {
2553
+ "epoch": 1.12,
2554
+ "grad_norm": 0.0008852950995787978,
2555
+ "learning_rate": 6.4000000000000006e-06,
2556
+ "loss": 0.0354,
2557
+ "step": 3560
2558
+ },
2559
+ {
2560
+ "epoch": 1.12,
2561
+ "grad_norm": 0.0006289037992246449,
2562
+ "learning_rate": 6.355555555555556e-06,
2563
+ "loss": 0.0315,
2564
+ "step": 3570
2565
+ },
2566
+ {
2567
+ "epoch": 1.12,
2568
+ "grad_norm": 0.001330237602815032,
2569
+ "learning_rate": 6.311111111111111e-06,
2570
+ "loss": 0.0161,
2571
+ "step": 3580
2572
+ },
2573
+ {
2574
+ "epoch": 1.12,
2575
+ "grad_norm": 0.0021519146393984556,
2576
+ "learning_rate": 6.266666666666668e-06,
2577
+ "loss": 0.0105,
2578
+ "step": 3590
2579
+ },
2580
+ {
2581
+ "epoch": 1.13,
2582
+ "grad_norm": 1.5696661472320557,
2583
+ "learning_rate": 6.222222222222223e-06,
2584
+ "loss": 0.0244,
2585
+ "step": 3600
2586
+ },
2587
+ {
2588
+ "epoch": 1.13,
2589
+ "grad_norm": 0.001931514940224588,
2590
+ "learning_rate": 6.177777777777778e-06,
2591
+ "loss": 0.0001,
2592
+ "step": 3610
2593
+ },
2594
+ {
2595
+ "epoch": 1.13,
2596
+ "grad_norm": 0.0009438694687560201,
2597
+ "learning_rate": 6.133333333333334e-06,
2598
+ "loss": 0.0366,
2599
+ "step": 3620
2600
+ },
2601
+ {
2602
+ "epoch": 1.14,
2603
+ "grad_norm": 0.6622722148895264,
2604
+ "learning_rate": 6.08888888888889e-06,
2605
+ "loss": 0.0113,
2606
+ "step": 3630
2607
+ },
2608
+ {
2609
+ "epoch": 1.14,
2610
+ "grad_norm": 0.6738483309745789,
2611
+ "learning_rate": 6.044444444444445e-06,
2612
+ "loss": 0.0314,
2613
+ "step": 3640
2614
+ },
2615
+ {
2616
+ "epoch": 1.14,
2617
+ "grad_norm": 2.3022451400756836,
2618
+ "learning_rate": 6e-06,
2619
+ "loss": 0.0252,
2620
+ "step": 3650
2621
+ },
2622
+ {
2623
+ "epoch": 1.15,
2624
+ "grad_norm": 2.823756694793701,
2625
+ "learning_rate": 5.955555555555555e-06,
2626
+ "loss": 0.0468,
2627
+ "step": 3660
2628
+ },
2629
+ {
2630
+ "epoch": 1.15,
2631
+ "grad_norm": 1.8479762077331543,
2632
+ "learning_rate": 5.911111111111112e-06,
2633
+ "loss": 0.0275,
2634
+ "step": 3670
2635
+ },
2636
+ {
2637
+ "epoch": 1.15,
2638
+ "grad_norm": 0.0007701431168243289,
2639
+ "learning_rate": 5.8666666666666675e-06,
2640
+ "loss": 0.032,
2641
+ "step": 3680
2642
+ },
2643
+ {
2644
+ "epoch": 1.16,
2645
+ "grad_norm": 1.1393382549285889,
2646
+ "learning_rate": 5.822222222222223e-06,
2647
+ "loss": 0.0791,
2648
+ "step": 3690
2649
+ },
2650
+ {
2651
+ "epoch": 1.16,
2652
+ "grad_norm": 1.9080690145492554,
2653
+ "learning_rate": 5.777777777777778e-06,
2654
+ "loss": 0.0259,
2655
+ "step": 3700
2656
+ },
2657
+ {
2658
+ "epoch": 1.16,
2659
+ "grad_norm": 0.001581453951075673,
2660
+ "learning_rate": 5.733333333333334e-06,
2661
+ "loss": 0.0409,
2662
+ "step": 3710
2663
+ },
2664
+ {
2665
+ "epoch": 1.17,
2666
+ "grad_norm": 0.03290742263197899,
2667
+ "learning_rate": 5.688888888888889e-06,
2668
+ "loss": 0.0929,
2669
+ "step": 3720
2670
+ },
2671
+ {
2672
+ "epoch": 1.17,
2673
+ "grad_norm": 0.0012888371711596847,
2674
+ "learning_rate": 5.6444444444444445e-06,
2675
+ "loss": 0.0168,
2676
+ "step": 3730
2677
+ },
2678
+ {
2679
+ "epoch": 1.17,
2680
+ "grad_norm": 0.0007963385432958603,
2681
+ "learning_rate": 5.600000000000001e-06,
2682
+ "loss": 0.0525,
2683
+ "step": 3740
2684
+ },
2685
+ {
2686
+ "epoch": 1.17,
2687
+ "grad_norm": 0.015161274001002312,
2688
+ "learning_rate": 5.555555555555557e-06,
2689
+ "loss": 0.0375,
2690
+ "step": 3750
2691
+ },
2692
+ {
2693
+ "epoch": 1.18,
2694
+ "grad_norm": 0.0009869037894532084,
2695
+ "learning_rate": 5.511111111111112e-06,
2696
+ "loss": 0.0246,
2697
+ "step": 3760
2698
+ },
2699
+ {
2700
+ "epoch": 1.18,
2701
+ "grad_norm": 0.002037523780018091,
2702
+ "learning_rate": 5.466666666666667e-06,
2703
+ "loss": 0.0934,
2704
+ "step": 3770
2705
+ },
2706
+ {
2707
+ "epoch": 1.18,
2708
+ "grad_norm": 0.002192340325564146,
2709
+ "learning_rate": 5.422222222222223e-06,
2710
+ "loss": 0.0138,
2711
+ "step": 3780
2712
+ },
2713
+ {
2714
+ "epoch": 1.19,
2715
+ "grad_norm": 0.10088424384593964,
2716
+ "learning_rate": 5.3777777777777784e-06,
2717
+ "loss": 0.0259,
2718
+ "step": 3790
2719
+ },
2720
+ {
2721
+ "epoch": 1.19,
2722
+ "grad_norm": 0.38258832693099976,
2723
+ "learning_rate": 5.333333333333334e-06,
2724
+ "loss": 0.0266,
2725
+ "step": 3800
2726
+ },
2727
+ {
2728
+ "epoch": 1.19,
2729
+ "grad_norm": 0.0011203467147424817,
2730
+ "learning_rate": 5.288888888888889e-06,
2731
+ "loss": 0.0069,
2732
+ "step": 3810
2733
+ },
2734
+ {
2735
+ "epoch": 1.2,
2736
+ "grad_norm": 0.0006357720121741295,
2737
+ "learning_rate": 5.244444444444445e-06,
2738
+ "loss": 0.0272,
2739
+ "step": 3820
2740
+ },
2741
+ {
2742
+ "epoch": 1.2,
2743
+ "grad_norm": 0.12165514379739761,
2744
+ "learning_rate": 5.2e-06,
2745
+ "loss": 0.0175,
2746
+ "step": 3830
2747
+ },
2748
+ {
2749
+ "epoch": 1.2,
2750
+ "grad_norm": 0.0015337629010900855,
2751
+ "learning_rate": 5.155555555555556e-06,
2752
+ "loss": 0.027,
2753
+ "step": 3840
2754
+ },
2755
+ {
2756
+ "epoch": 1.21,
2757
+ "grad_norm": 0.0012696600751951337,
2758
+ "learning_rate": 5.1111111111111115e-06,
2759
+ "loss": 0.0005,
2760
+ "step": 3850
2761
+ },
2762
+ {
2763
+ "epoch": 1.21,
2764
+ "grad_norm": 0.8595750331878662,
2765
+ "learning_rate": 5.0666666666666676e-06,
2766
+ "loss": 0.0367,
2767
+ "step": 3860
2768
+ },
2769
+ {
2770
+ "epoch": 1.21,
2771
+ "grad_norm": 0.002280933316797018,
2772
+ "learning_rate": 5.022222222222223e-06,
2773
+ "loss": 0.0374,
2774
+ "step": 3870
2775
+ },
2776
+ {
2777
+ "epoch": 1.22,
2778
+ "grad_norm": 0.0005754129961133003,
2779
+ "learning_rate": 4.977777777777778e-06,
2780
+ "loss": 0.0168,
2781
+ "step": 3880
2782
+ },
2783
+ {
2784
+ "epoch": 1.22,
2785
+ "grad_norm": 0.8617763519287109,
2786
+ "learning_rate": 4.933333333333334e-06,
2787
+ "loss": 0.0155,
2788
+ "step": 3890
2789
+ },
2790
+ {
2791
+ "epoch": 1.22,
2792
+ "grad_norm": 0.5179722905158997,
2793
+ "learning_rate": 4.888888888888889e-06,
2794
+ "loss": 0.0486,
2795
+ "step": 3900
2796
+ },
2797
+ {
2798
+ "epoch": 1.23,
2799
+ "grad_norm": 0.0009101899340748787,
2800
+ "learning_rate": 4.8444444444444446e-06,
2801
+ "loss": 0.0027,
2802
+ "step": 3910
2803
+ },
2804
+ {
2805
+ "epoch": 1.23,
2806
+ "grad_norm": 0.008863825350999832,
2807
+ "learning_rate": 4.800000000000001e-06,
2808
+ "loss": 0.055,
2809
+ "step": 3920
2810
+ },
2811
+ {
2812
+ "epoch": 1.23,
2813
+ "grad_norm": 1.593704342842102,
2814
+ "learning_rate": 4.755555555555556e-06,
2815
+ "loss": 0.0128,
2816
+ "step": 3930
2817
+ },
2818
+ {
2819
+ "epoch": 1.23,
2820
+ "grad_norm": 0.0012650558492168784,
2821
+ "learning_rate": 4.711111111111111e-06,
2822
+ "loss": 0.0,
2823
+ "step": 3940
2824
+ },
2825
+ {
2826
+ "epoch": 1.24,
2827
+ "grad_norm": 0.0025375504046678543,
2828
+ "learning_rate": 4.666666666666667e-06,
2829
+ "loss": 0.0254,
2830
+ "step": 3950
2831
+ },
2832
+ {
2833
+ "epoch": 1.24,
2834
+ "grad_norm": 0.0035014720633625984,
2835
+ "learning_rate": 4.622222222222222e-06,
2836
+ "loss": 0.0254,
2837
+ "step": 3960
2838
+ },
2839
+ {
2840
+ "epoch": 1.24,
2841
+ "grad_norm": 0.0010467343963682652,
2842
+ "learning_rate": 4.5777777777777785e-06,
2843
+ "loss": 0.0556,
2844
+ "step": 3970
2845
+ },
2846
+ {
2847
+ "epoch": 1.25,
2848
+ "grad_norm": 0.0006358217215165496,
2849
+ "learning_rate": 4.533333333333334e-06,
2850
+ "loss": 0.0266,
2851
+ "step": 3980
2852
+ },
2853
+ {
2854
+ "epoch": 1.25,
2855
+ "grad_norm": 0.3243739902973175,
2856
+ "learning_rate": 4.488888888888889e-06,
2857
+ "loss": 0.0079,
2858
+ "step": 3990
2859
+ },
2860
+ {
2861
+ "epoch": 1.25,
2862
+ "grad_norm": 0.04155297204852104,
2863
+ "learning_rate": 4.444444444444444e-06,
2864
+ "loss": 0.0163,
2865
+ "step": 4000
2866
+ },
2867
+ {
2868
+ "epoch": 1.25,
2869
+ "eval_loss": 0.02105984091758728,
2870
+ "eval_runtime": 62.0961,
2871
+ "eval_samples_per_second": 16.104,
2872
+ "eval_steps_per_second": 16.104,
2873
+ "step": 4000
2874
  }
2875
  ],
2876
  "logging_steps": 10,
 
2878
  "num_input_tokens_seen": 0,
2879
  "num_train_epochs": 2,
2880
  "save_steps": 1000,
2881
+ "total_flos": 6.4408503975936e+16,
2882
  "train_batch_size": 1,
2883
  "trial_name": null,
2884
  "trial_params": null