ssunggun2 commited on
Commit
924cbd4
·
verified ·
1 Parent(s): bdd2f6a

Upload folder using huggingface_hub

Browse files
Files changed (5) hide show
  1. adapter_model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. rng_state.pth +1 -1
  4. scheduler.pt +1 -1
  5. trainer_state.json +5 -2099
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:52a9be062605070742cde00600264cee991bb06edc9c792af4d52f4aaefb6256
3
  size 13648432
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:44e8847dbf0ea6293644e45813405a2f151b828ae4f29979af6e82dc49e08850
3
  size 13648432
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e4559046956d47204fd03216ecec0a6ab372ec6b1898619008c2c64d7a27e94c
3
  size 27338810
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:67367306cd1d682d64912fd3a1359d1b7b791e240866f779c437cdcf05081345
3
  size 27338810
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:89c22016d47a4c8fc4fba2c7162dce77859e0b25d0082d169067b9fa1803b889
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:177435cb64bafc6b524cc1f24325d7a1aeaab10e860cd7ae3ed10d5daf104188
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:57802a66d4e06aedffd82faf21afe91d5401e799d1bf827c6e333c3d9d5698a6
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9e82f752be7498a405dfc2fff2a403df3464cd10f7d73510023a768d2c3dc848
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 2.154229164123535,
3
- "best_model_checkpoint": "/home/sunggeunan/data/ICL/outputs/lora/SKIML-ICL_mrqa_nq_v3/Meta-Llama-3-8B-Instruct-unanswerable-1Q-0U-0C-qa_first/checkpoint-595",
4
- "epoch": 1.9974821653378094,
5
  "eval_steps": 500,
6
- "global_step": 595,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2094,2100 +2094,6 @@
2094
  "eval_samples_per_second": 1.004,
2095
  "eval_steps_per_second": 0.252,
2096
  "step": 297
2097
- },
2098
- {
2099
- "epoch": 1.000419639110365,
2100
- "grad_norm": 0.5272724628448486,
2101
- "learning_rate": 3.504728132387707e-07,
2102
- "loss": 2.2234,
2103
- "step": 298
2104
- },
2105
- {
2106
- "epoch": 1.0037767519932859,
2107
- "grad_norm": 0.4873766303062439,
2108
- "learning_rate": 3.498817966903073e-07,
2109
- "loss": 2.132,
2110
- "step": 299
2111
- },
2112
- {
2113
- "epoch": 1.0071338648762065,
2114
- "grad_norm": 0.5091378688812256,
2115
- "learning_rate": 3.492907801418439e-07,
2116
- "loss": 2.1375,
2117
- "step": 300
2118
- },
2119
- {
2120
- "epoch": 1.010490977759127,
2121
- "grad_norm": 0.5512698888778687,
2122
- "learning_rate": 3.486997635933806e-07,
2123
- "loss": 2.1544,
2124
- "step": 301
2125
- },
2126
- {
2127
- "epoch": 1.013848090642048,
2128
- "grad_norm": 0.5361558794975281,
2129
- "learning_rate": 3.481087470449172e-07,
2130
- "loss": 2.1154,
2131
- "step": 302
2132
- },
2133
- {
2134
- "epoch": 1.0172052035249686,
2135
- "grad_norm": 0.5224741101264954,
2136
- "learning_rate": 3.475177304964539e-07,
2137
- "loss": 2.1329,
2138
- "step": 303
2139
- },
2140
- {
2141
- "epoch": 1.0205623164078892,
2142
- "grad_norm": 0.5074843168258667,
2143
- "learning_rate": 3.469267139479905e-07,
2144
- "loss": 2.2165,
2145
- "step": 304
2146
- },
2147
- {
2148
- "epoch": 1.0239194292908098,
2149
- "grad_norm": 0.5245934724807739,
2150
- "learning_rate": 3.4633569739952715e-07,
2151
- "loss": 2.1086,
2152
- "step": 305
2153
- },
2154
- {
2155
- "epoch": 1.0272765421737307,
2156
- "grad_norm": 0.5485753417015076,
2157
- "learning_rate": 3.457446808510638e-07,
2158
- "loss": 2.1842,
2159
- "step": 306
2160
- },
2161
- {
2162
- "epoch": 1.0306336550566513,
2163
- "grad_norm": 0.5130212903022766,
2164
- "learning_rate": 3.4515366430260045e-07,
2165
- "loss": 2.1281,
2166
- "step": 307
2167
- },
2168
- {
2169
- "epoch": 1.033990767939572,
2170
- "grad_norm": 0.49941399693489075,
2171
- "learning_rate": 3.445626477541371e-07,
2172
- "loss": 2.1702,
2173
- "step": 308
2174
- },
2175
- {
2176
- "epoch": 1.0373478808224927,
2177
- "grad_norm": 0.5032735466957092,
2178
- "learning_rate": 3.4397163120567375e-07,
2179
- "loss": 2.1522,
2180
- "step": 309
2181
- },
2182
- {
2183
- "epoch": 1.0407049937054134,
2184
- "grad_norm": 0.5410491228103638,
2185
- "learning_rate": 3.4338061465721043e-07,
2186
- "loss": 2.1986,
2187
- "step": 310
2188
- },
2189
- {
2190
- "epoch": 1.044062106588334,
2191
- "grad_norm": 0.5421656370162964,
2192
- "learning_rate": 3.42789598108747e-07,
2193
- "loss": 2.1723,
2194
- "step": 311
2195
- },
2196
- {
2197
- "epoch": 1.0474192194712548,
2198
- "grad_norm": 0.5225166082382202,
2199
- "learning_rate": 3.421985815602837e-07,
2200
- "loss": 2.1828,
2201
- "step": 312
2202
- },
2203
- {
2204
- "epoch": 1.0507763323541754,
2205
- "grad_norm": 0.5110374689102173,
2206
- "learning_rate": 3.416075650118203e-07,
2207
- "loss": 2.1484,
2208
- "step": 313
2209
- },
2210
- {
2211
- "epoch": 1.054133445237096,
2212
- "grad_norm": 0.5102293491363525,
2213
- "learning_rate": 3.41016548463357e-07,
2214
- "loss": 2.1511,
2215
- "step": 314
2216
- },
2217
- {
2218
- "epoch": 1.0574905581200167,
2219
- "grad_norm": 0.5226995348930359,
2220
- "learning_rate": 3.404255319148936e-07,
2221
- "loss": 2.173,
2222
- "step": 315
2223
- },
2224
- {
2225
- "epoch": 1.0608476710029375,
2226
- "grad_norm": 0.5546832084655762,
2227
- "learning_rate": 3.398345153664303e-07,
2228
- "loss": 2.1441,
2229
- "step": 316
2230
- },
2231
- {
2232
- "epoch": 1.0642047838858582,
2233
- "grad_norm": 0.5536327958106995,
2234
- "learning_rate": 3.392434988179669e-07,
2235
- "loss": 2.1534,
2236
- "step": 317
2237
- },
2238
- {
2239
- "epoch": 1.0675618967687788,
2240
- "grad_norm": 0.5330432653427124,
2241
- "learning_rate": 3.386524822695035e-07,
2242
- "loss": 2.1448,
2243
- "step": 318
2244
- },
2245
- {
2246
- "epoch": 1.0709190096516996,
2247
- "grad_norm": 0.49918365478515625,
2248
- "learning_rate": 3.3806146572104015e-07,
2249
- "loss": 2.1029,
2250
- "step": 319
2251
- },
2252
- {
2253
- "epoch": 1.0742761225346202,
2254
- "grad_norm": 0.5382150411605835,
2255
- "learning_rate": 3.3747044917257683e-07,
2256
- "loss": 2.1565,
2257
- "step": 320
2258
- },
2259
- {
2260
- "epoch": 1.0776332354175409,
2261
- "grad_norm": 0.5065953135490417,
2262
- "learning_rate": 3.3687943262411345e-07,
2263
- "loss": 2.1437,
2264
- "step": 321
2265
- },
2266
- {
2267
- "epoch": 1.0809903483004617,
2268
- "grad_norm": 0.5226719379425049,
2269
- "learning_rate": 3.3628841607565013e-07,
2270
- "loss": 2.2127,
2271
- "step": 322
2272
- },
2273
- {
2274
- "epoch": 1.0843474611833823,
2275
- "grad_norm": 0.5471811890602112,
2276
- "learning_rate": 3.3569739952718675e-07,
2277
- "loss": 2.1296,
2278
- "step": 323
2279
- },
2280
- {
2281
- "epoch": 1.087704574066303,
2282
- "grad_norm": 0.5282257795333862,
2283
- "learning_rate": 3.351063829787234e-07,
2284
- "loss": 2.1872,
2285
- "step": 324
2286
- },
2287
- {
2288
- "epoch": 1.0910616869492236,
2289
- "grad_norm": 0.5142350792884827,
2290
- "learning_rate": 3.3451536643026e-07,
2291
- "loss": 2.1382,
2292
- "step": 325
2293
- },
2294
- {
2295
- "epoch": 1.0944187998321444,
2296
- "grad_norm": 0.502540647983551,
2297
- "learning_rate": 3.339243498817967e-07,
2298
- "loss": 2.1134,
2299
- "step": 326
2300
- },
2301
- {
2302
- "epoch": 1.097775912715065,
2303
- "grad_norm": 0.5727620720863342,
2304
- "learning_rate": 3.333333333333333e-07,
2305
- "loss": 2.1649,
2306
- "step": 327
2307
- },
2308
- {
2309
- "epoch": 1.1011330255979856,
2310
- "grad_norm": 0.4994928240776062,
2311
- "learning_rate": 3.3274231678487e-07,
2312
- "loss": 2.0851,
2313
- "step": 328
2314
- },
2315
- {
2316
- "epoch": 1.1044901384809065,
2317
- "grad_norm": 0.538866400718689,
2318
- "learning_rate": 3.321513002364066e-07,
2319
- "loss": 2.1617,
2320
- "step": 329
2321
- },
2322
- {
2323
- "epoch": 1.1078472513638271,
2324
- "grad_norm": 0.5652467608451843,
2325
- "learning_rate": 3.315602836879433e-07,
2326
- "loss": 2.1395,
2327
- "step": 330
2328
- },
2329
- {
2330
- "epoch": 1.1112043642467477,
2331
- "grad_norm": 0.5386678576469421,
2332
- "learning_rate": 3.3096926713947985e-07,
2333
- "loss": 2.1784,
2334
- "step": 331
2335
- },
2336
- {
2337
- "epoch": 1.1145614771296686,
2338
- "grad_norm": 0.5307468771934509,
2339
- "learning_rate": 3.3037825059101653e-07,
2340
- "loss": 2.1523,
2341
- "step": 332
2342
- },
2343
- {
2344
- "epoch": 1.1179185900125892,
2345
- "grad_norm": 0.5158649682998657,
2346
- "learning_rate": 3.2978723404255315e-07,
2347
- "loss": 2.1502,
2348
- "step": 333
2349
- },
2350
- {
2351
- "epoch": 1.1212757028955098,
2352
- "grad_norm": 0.49658921360969543,
2353
- "learning_rate": 3.2919621749408983e-07,
2354
- "loss": 2.1729,
2355
- "step": 334
2356
- },
2357
- {
2358
- "epoch": 1.1246328157784307,
2359
- "grad_norm": 0.5137538909912109,
2360
- "learning_rate": 3.2860520094562645e-07,
2361
- "loss": 2.1631,
2362
- "step": 335
2363
- },
2364
- {
2365
- "epoch": 1.1279899286613513,
2366
- "grad_norm": 0.5163960456848145,
2367
- "learning_rate": 3.2801418439716313e-07,
2368
- "loss": 2.1616,
2369
- "step": 336
2370
- },
2371
- {
2372
- "epoch": 1.131347041544272,
2373
- "grad_norm": 0.528138279914856,
2374
- "learning_rate": 3.274231678486997e-07,
2375
- "loss": 2.1347,
2376
- "step": 337
2377
- },
2378
- {
2379
- "epoch": 1.1347041544271925,
2380
- "grad_norm": 0.5045042037963867,
2381
- "learning_rate": 3.268321513002364e-07,
2382
- "loss": 2.1737,
2383
- "step": 338
2384
- },
2385
- {
2386
- "epoch": 1.1380612673101134,
2387
- "grad_norm": 0.4872915744781494,
2388
- "learning_rate": 3.2624113475177305e-07,
2389
- "loss": 2.1644,
2390
- "step": 339
2391
- },
2392
- {
2393
- "epoch": 1.141418380193034,
2394
- "grad_norm": 0.4652014672756195,
2395
- "learning_rate": 3.256501182033097e-07,
2396
- "loss": 2.0968,
2397
- "step": 340
2398
- },
2399
- {
2400
- "epoch": 1.1447754930759546,
2401
- "grad_norm": 0.5411556363105774,
2402
- "learning_rate": 3.2505910165484635e-07,
2403
- "loss": 2.1138,
2404
- "step": 341
2405
- },
2406
- {
2407
- "epoch": 1.1481326059588755,
2408
- "grad_norm": 0.544403076171875,
2409
- "learning_rate": 3.24468085106383e-07,
2410
- "loss": 2.1868,
2411
- "step": 342
2412
- },
2413
- {
2414
- "epoch": 1.151489718841796,
2415
- "grad_norm": 0.5387755036354065,
2416
- "learning_rate": 3.2387706855791966e-07,
2417
- "loss": 2.1363,
2418
- "step": 343
2419
- },
2420
- {
2421
- "epoch": 1.1548468317247167,
2422
- "grad_norm": 0.5694748163223267,
2423
- "learning_rate": 3.2328605200945623e-07,
2424
- "loss": 2.1721,
2425
- "step": 344
2426
- },
2427
- {
2428
- "epoch": 1.1582039446076373,
2429
- "grad_norm": 0.5088086128234863,
2430
- "learning_rate": 3.226950354609929e-07,
2431
- "loss": 2.113,
2432
- "step": 345
2433
- },
2434
- {
2435
- "epoch": 1.1615610574905582,
2436
- "grad_norm": 0.4980618357658386,
2437
- "learning_rate": 3.2210401891252953e-07,
2438
- "loss": 2.1537,
2439
- "step": 346
2440
- },
2441
- {
2442
- "epoch": 1.1649181703734788,
2443
- "grad_norm": 0.5294389724731445,
2444
- "learning_rate": 3.215130023640662e-07,
2445
- "loss": 2.1432,
2446
- "step": 347
2447
- },
2448
- {
2449
- "epoch": 1.1682752832563994,
2450
- "grad_norm": 0.5375152826309204,
2451
- "learning_rate": 3.2092198581560283e-07,
2452
- "loss": 2.0828,
2453
- "step": 348
2454
- },
2455
- {
2456
- "epoch": 1.1716323961393202,
2457
- "grad_norm": 0.5342891216278076,
2458
- "learning_rate": 3.203309692671395e-07,
2459
- "loss": 2.1481,
2460
- "step": 349
2461
- },
2462
- {
2463
- "epoch": 1.1749895090222409,
2464
- "grad_norm": 0.5365825891494751,
2465
- "learning_rate": 3.197399527186761e-07,
2466
- "loss": 2.1582,
2467
- "step": 350
2468
- },
2469
- {
2470
- "epoch": 1.1783466219051615,
2471
- "grad_norm": 0.5169309377670288,
2472
- "learning_rate": 3.1914893617021275e-07,
2473
- "loss": 2.1516,
2474
- "step": 351
2475
- },
2476
- {
2477
- "epoch": 1.1817037347880823,
2478
- "grad_norm": 0.5114818215370178,
2479
- "learning_rate": 3.185579196217494e-07,
2480
- "loss": 2.0993,
2481
- "step": 352
2482
- },
2483
- {
2484
- "epoch": 1.185060847671003,
2485
- "grad_norm": 0.5225831270217896,
2486
- "learning_rate": 3.1796690307328605e-07,
2487
- "loss": 2.1582,
2488
- "step": 353
2489
- },
2490
- {
2491
- "epoch": 1.1884179605539236,
2492
- "grad_norm": 0.5083090662956238,
2493
- "learning_rate": 3.173758865248227e-07,
2494
- "loss": 2.133,
2495
- "step": 354
2496
- },
2497
- {
2498
- "epoch": 1.1917750734368444,
2499
- "grad_norm": 0.5559499263763428,
2500
- "learning_rate": 3.1678486997635936e-07,
2501
- "loss": 2.229,
2502
- "step": 355
2503
- },
2504
- {
2505
- "epoch": 1.195132186319765,
2506
- "grad_norm": 0.5239784121513367,
2507
- "learning_rate": 3.1619385342789593e-07,
2508
- "loss": 2.128,
2509
- "step": 356
2510
- },
2511
- {
2512
- "epoch": 1.1984892992026857,
2513
- "grad_norm": 0.5411834120750427,
2514
- "learning_rate": 3.156028368794326e-07,
2515
- "loss": 2.1608,
2516
- "step": 357
2517
- },
2518
- {
2519
- "epoch": 1.2018464120856063,
2520
- "grad_norm": 0.5520886778831482,
2521
- "learning_rate": 3.1501182033096923e-07,
2522
- "loss": 2.1963,
2523
- "step": 358
2524
- },
2525
- {
2526
- "epoch": 1.2052035249685271,
2527
- "grad_norm": 0.5210337042808533,
2528
- "learning_rate": 3.144208037825059e-07,
2529
- "loss": 2.1664,
2530
- "step": 359
2531
- },
2532
- {
2533
- "epoch": 1.2085606378514477,
2534
- "grad_norm": 0.5405945181846619,
2535
- "learning_rate": 3.1382978723404253e-07,
2536
- "loss": 2.1554,
2537
- "step": 360
2538
- },
2539
- {
2540
- "epoch": 1.2119177507343684,
2541
- "grad_norm": 0.5365945100784302,
2542
- "learning_rate": 3.132387706855792e-07,
2543
- "loss": 2.1653,
2544
- "step": 361
2545
- },
2546
- {
2547
- "epoch": 1.2152748636172892,
2548
- "grad_norm": 0.5147272348403931,
2549
- "learning_rate": 3.1264775413711583e-07,
2550
- "loss": 2.1194,
2551
- "step": 362
2552
- },
2553
- {
2554
- "epoch": 1.2186319765002098,
2555
- "grad_norm": 0.530087411403656,
2556
- "learning_rate": 3.1205673758865245e-07,
2557
- "loss": 2.2029,
2558
- "step": 363
2559
- },
2560
- {
2561
- "epoch": 1.2219890893831304,
2562
- "grad_norm": 0.5508552193641663,
2563
- "learning_rate": 3.114657210401891e-07,
2564
- "loss": 2.1886,
2565
- "step": 364
2566
- },
2567
- {
2568
- "epoch": 1.2253462022660513,
2569
- "grad_norm": 0.5228819847106934,
2570
- "learning_rate": 3.1087470449172575e-07,
2571
- "loss": 2.1737,
2572
- "step": 365
2573
- },
2574
- {
2575
- "epoch": 1.228703315148972,
2576
- "grad_norm": 0.549346923828125,
2577
- "learning_rate": 3.102836879432624e-07,
2578
- "loss": 2.1344,
2579
- "step": 366
2580
- },
2581
- {
2582
- "epoch": 1.2320604280318925,
2583
- "grad_norm": 0.5160160660743713,
2584
- "learning_rate": 3.0969267139479906e-07,
2585
- "loss": 2.1429,
2586
- "step": 367
2587
- },
2588
- {
2589
- "epoch": 1.2354175409148134,
2590
- "grad_norm": 0.536289393901825,
2591
- "learning_rate": 3.091016548463357e-07,
2592
- "loss": 2.154,
2593
- "step": 368
2594
- },
2595
- {
2596
- "epoch": 1.238774653797734,
2597
- "grad_norm": 0.5272290110588074,
2598
- "learning_rate": 3.085106382978723e-07,
2599
- "loss": 2.1581,
2600
- "step": 369
2601
- },
2602
- {
2603
- "epoch": 1.2421317666806546,
2604
- "grad_norm": 0.5044741034507751,
2605
- "learning_rate": 3.0791962174940893e-07,
2606
- "loss": 2.1434,
2607
- "step": 370
2608
- },
2609
- {
2610
- "epoch": 1.2454888795635752,
2611
- "grad_norm": 0.5435929298400879,
2612
- "learning_rate": 3.073286052009456e-07,
2613
- "loss": 2.1461,
2614
- "step": 371
2615
- },
2616
- {
2617
- "epoch": 1.248845992446496,
2618
- "grad_norm": 0.5109124779701233,
2619
- "learning_rate": 3.067375886524823e-07,
2620
- "loss": 2.1153,
2621
- "step": 372
2622
- },
2623
- {
2624
- "epoch": 1.2522031053294167,
2625
- "grad_norm": 0.5592184066772461,
2626
- "learning_rate": 3.061465721040189e-07,
2627
- "loss": 2.169,
2628
- "step": 373
2629
- },
2630
- {
2631
- "epoch": 1.2555602182123373,
2632
- "grad_norm": 0.5357188582420349,
2633
- "learning_rate": 3.055555555555556e-07,
2634
- "loss": 2.1458,
2635
- "step": 374
2636
- },
2637
- {
2638
- "epoch": 1.2589173310952582,
2639
- "grad_norm": 0.5415797233581543,
2640
- "learning_rate": 3.049645390070922e-07,
2641
- "loss": 2.2049,
2642
- "step": 375
2643
- },
2644
- {
2645
- "epoch": 1.2622744439781788,
2646
- "grad_norm": 0.5439038872718811,
2647
- "learning_rate": 3.0437352245862883e-07,
2648
- "loss": 2.1257,
2649
- "step": 376
2650
- },
2651
- {
2652
- "epoch": 1.2656315568610994,
2653
- "grad_norm": 0.5348344445228577,
2654
- "learning_rate": 3.0378250591016545e-07,
2655
- "loss": 2.1166,
2656
- "step": 377
2657
- },
2658
- {
2659
- "epoch": 1.26898866974402,
2660
- "grad_norm": 0.5547958016395569,
2661
- "learning_rate": 3.0319148936170213e-07,
2662
- "loss": 2.1121,
2663
- "step": 378
2664
- },
2665
- {
2666
- "epoch": 1.2723457826269409,
2667
- "grad_norm": 0.5206843018531799,
2668
- "learning_rate": 3.0260047281323876e-07,
2669
- "loss": 2.1154,
2670
- "step": 379
2671
- },
2672
- {
2673
- "epoch": 1.2757028955098615,
2674
- "grad_norm": 0.5301013588905334,
2675
- "learning_rate": 3.0200945626477543e-07,
2676
- "loss": 2.175,
2677
- "step": 380
2678
- },
2679
- {
2680
- "epoch": 1.2790600083927823,
2681
- "grad_norm": 0.5277062654495239,
2682
- "learning_rate": 3.0141843971631206e-07,
2683
- "loss": 2.1044,
2684
- "step": 381
2685
- },
2686
- {
2687
- "epoch": 1.282417121275703,
2688
- "grad_norm": 0.585447371006012,
2689
- "learning_rate": 3.008274231678487e-07,
2690
- "loss": 2.148,
2691
- "step": 382
2692
- },
2693
- {
2694
- "epoch": 1.2857742341586236,
2695
- "grad_norm": 0.5090722441673279,
2696
- "learning_rate": 3.002364066193853e-07,
2697
- "loss": 2.1372,
2698
- "step": 383
2699
- },
2700
- {
2701
- "epoch": 1.2891313470415442,
2702
- "grad_norm": 0.5260941982269287,
2703
- "learning_rate": 2.99645390070922e-07,
2704
- "loss": 2.1102,
2705
- "step": 384
2706
- },
2707
- {
2708
- "epoch": 1.292488459924465,
2709
- "grad_norm": 0.5579008460044861,
2710
- "learning_rate": 2.990543735224586e-07,
2711
- "loss": 2.1315,
2712
- "step": 385
2713
- },
2714
- {
2715
- "epoch": 1.2958455728073857,
2716
- "grad_norm": 0.5250607132911682,
2717
- "learning_rate": 2.984633569739953e-07,
2718
- "loss": 2.1774,
2719
- "step": 386
2720
- },
2721
- {
2722
- "epoch": 1.2992026856903063,
2723
- "grad_norm": 0.5178482532501221,
2724
- "learning_rate": 2.978723404255319e-07,
2725
- "loss": 2.0698,
2726
- "step": 387
2727
- },
2728
- {
2729
- "epoch": 1.3025597985732271,
2730
- "grad_norm": 0.523533821105957,
2731
- "learning_rate": 2.9728132387706853e-07,
2732
- "loss": 2.1363,
2733
- "step": 388
2734
- },
2735
- {
2736
- "epoch": 1.3059169114561477,
2737
- "grad_norm": 0.536793053150177,
2738
- "learning_rate": 2.9669030732860516e-07,
2739
- "loss": 2.1636,
2740
- "step": 389
2741
- },
2742
- {
2743
- "epoch": 1.3092740243390684,
2744
- "grad_norm": 0.5273007154464722,
2745
- "learning_rate": 2.9609929078014183e-07,
2746
- "loss": 2.1524,
2747
- "step": 390
2748
- },
2749
- {
2750
- "epoch": 1.312631137221989,
2751
- "grad_norm": 0.5152904391288757,
2752
- "learning_rate": 2.9550827423167846e-07,
2753
- "loss": 2.1616,
2754
- "step": 391
2755
- },
2756
- {
2757
- "epoch": 1.3159882501049098,
2758
- "grad_norm": 0.5256254076957703,
2759
- "learning_rate": 2.9491725768321513e-07,
2760
- "loss": 2.1526,
2761
- "step": 392
2762
- },
2763
- {
2764
- "epoch": 1.3193453629878305,
2765
- "grad_norm": 0.5300120711326599,
2766
- "learning_rate": 2.9432624113475176e-07,
2767
- "loss": 2.1807,
2768
- "step": 393
2769
- },
2770
- {
2771
- "epoch": 1.322702475870751,
2772
- "grad_norm": 0.5391471982002258,
2773
- "learning_rate": 2.9373522458628843e-07,
2774
- "loss": 2.1394,
2775
- "step": 394
2776
- },
2777
- {
2778
- "epoch": 1.326059588753672,
2779
- "grad_norm": 0.5455812811851501,
2780
- "learning_rate": 2.93144208037825e-07,
2781
- "loss": 2.1385,
2782
- "step": 395
2783
- },
2784
- {
2785
- "epoch": 1.3294167016365925,
2786
- "grad_norm": 1.7401214838027954,
2787
- "learning_rate": 2.925531914893617e-07,
2788
- "loss": 2.173,
2789
- "step": 396
2790
- },
2791
- {
2792
- "epoch": 1.3327738145195132,
2793
- "grad_norm": 0.5152906179428101,
2794
- "learning_rate": 2.919621749408983e-07,
2795
- "loss": 2.0993,
2796
- "step": 397
2797
- },
2798
- {
2799
- "epoch": 1.3361309274024338,
2800
- "grad_norm": 0.5892696976661682,
2801
- "learning_rate": 2.91371158392435e-07,
2802
- "loss": 2.1427,
2803
- "step": 398
2804
- },
2805
- {
2806
- "epoch": 1.3394880402853546,
2807
- "grad_norm": 0.5898533463478088,
2808
- "learning_rate": 2.907801418439716e-07,
2809
- "loss": 2.2104,
2810
- "step": 399
2811
- },
2812
- {
2813
- "epoch": 1.3428451531682752,
2814
- "grad_norm": 0.5784264802932739,
2815
- "learning_rate": 2.901891252955083e-07,
2816
- "loss": 2.1015,
2817
- "step": 400
2818
- },
2819
- {
2820
- "epoch": 1.346202266051196,
2821
- "grad_norm": 0.542095422744751,
2822
- "learning_rate": 2.8959810874704486e-07,
2823
- "loss": 2.1862,
2824
- "step": 401
2825
- },
2826
- {
2827
- "epoch": 1.3495593789341167,
2828
- "grad_norm": 0.5719075202941895,
2829
- "learning_rate": 2.8900709219858153e-07,
2830
- "loss": 2.1248,
2831
- "step": 402
2832
- },
2833
- {
2834
- "epoch": 1.3529164918170373,
2835
- "grad_norm": 0.5260282754898071,
2836
- "learning_rate": 2.884160756501182e-07,
2837
- "loss": 2.1521,
2838
- "step": 403
2839
- },
2840
- {
2841
- "epoch": 1.356273604699958,
2842
- "grad_norm": 0.5233082175254822,
2843
- "learning_rate": 2.8782505910165483e-07,
2844
- "loss": 2.1747,
2845
- "step": 404
2846
- },
2847
- {
2848
- "epoch": 1.3596307175828788,
2849
- "grad_norm": 0.6177014708518982,
2850
- "learning_rate": 2.872340425531915e-07,
2851
- "loss": 2.1494,
2852
- "step": 405
2853
- },
2854
- {
2855
- "epoch": 1.3629878304657994,
2856
- "grad_norm": 0.5536350607872009,
2857
- "learning_rate": 2.8664302600472813e-07,
2858
- "loss": 2.1911,
2859
- "step": 406
2860
- },
2861
- {
2862
- "epoch": 1.36634494334872,
2863
- "grad_norm": 0.550588071346283,
2864
- "learning_rate": 2.860520094562648e-07,
2865
- "loss": 2.1531,
2866
- "step": 407
2867
- },
2868
- {
2869
- "epoch": 1.3697020562316409,
2870
- "grad_norm": 0.5359508395195007,
2871
- "learning_rate": 2.854609929078014e-07,
2872
- "loss": 2.1343,
2873
- "step": 408
2874
- },
2875
- {
2876
- "epoch": 1.3730591691145615,
2877
- "grad_norm": 0.5293654799461365,
2878
- "learning_rate": 2.8486997635933806e-07,
2879
- "loss": 2.1612,
2880
- "step": 409
2881
- },
2882
- {
2883
- "epoch": 1.3764162819974821,
2884
- "grad_norm": 0.5226705074310303,
2885
- "learning_rate": 2.842789598108747e-07,
2886
- "loss": 2.1633,
2887
- "step": 410
2888
- },
2889
- {
2890
- "epoch": 1.3797733948804027,
2891
- "grad_norm": 0.5413585305213928,
2892
- "learning_rate": 2.8368794326241136e-07,
2893
- "loss": 2.1663,
2894
- "step": 411
2895
- },
2896
- {
2897
- "epoch": 1.3831305077633236,
2898
- "grad_norm": 0.546417236328125,
2899
- "learning_rate": 2.83096926713948e-07,
2900
- "loss": 2.1514,
2901
- "step": 412
2902
- },
2903
- {
2904
- "epoch": 1.3864876206462442,
2905
- "grad_norm": 0.5406803488731384,
2906
- "learning_rate": 2.8250591016548466e-07,
2907
- "loss": 2.209,
2908
- "step": 413
2909
- },
2910
- {
2911
- "epoch": 1.389844733529165,
2912
- "grad_norm": 0.5303312540054321,
2913
- "learning_rate": 2.8191489361702123e-07,
2914
- "loss": 2.1523,
2915
- "step": 414
2916
- },
2917
- {
2918
- "epoch": 1.3932018464120857,
2919
- "grad_norm": 0.5181916356086731,
2920
- "learning_rate": 2.813238770685579e-07,
2921
- "loss": 2.1744,
2922
- "step": 415
2923
- },
2924
- {
2925
- "epoch": 1.3965589592950063,
2926
- "grad_norm": 0.5345380902290344,
2927
- "learning_rate": 2.8073286052009453e-07,
2928
- "loss": 2.1623,
2929
- "step": 416
2930
- },
2931
- {
2932
- "epoch": 1.399916072177927,
2933
- "grad_norm": 0.5157522559165955,
2934
- "learning_rate": 2.801418439716312e-07,
2935
- "loss": 2.1714,
2936
- "step": 417
2937
- },
2938
- {
2939
- "epoch": 1.4032731850608477,
2940
- "grad_norm": 0.5216273069381714,
2941
- "learning_rate": 2.7955082742316783e-07,
2942
- "loss": 2.1456,
2943
- "step": 418
2944
- },
2945
- {
2946
- "epoch": 1.4066302979437684,
2947
- "grad_norm": 0.5333211421966553,
2948
- "learning_rate": 2.789598108747045e-07,
2949
- "loss": 2.1617,
2950
- "step": 419
2951
- },
2952
- {
2953
- "epoch": 1.409987410826689,
2954
- "grad_norm": 0.5298429131507874,
2955
- "learning_rate": 2.783687943262411e-07,
2956
- "loss": 2.1636,
2957
- "step": 420
2958
- },
2959
- {
2960
- "epoch": 1.4133445237096098,
2961
- "grad_norm": 0.5449317693710327,
2962
- "learning_rate": 2.7777777777777776e-07,
2963
- "loss": 2.1789,
2964
- "step": 421
2965
- },
2966
- {
2967
- "epoch": 1.4167016365925305,
2968
- "grad_norm": 0.57036954164505,
2969
- "learning_rate": 2.771867612293144e-07,
2970
- "loss": 2.0884,
2971
- "step": 422
2972
- },
2973
- {
2974
- "epoch": 1.420058749475451,
2975
- "grad_norm": 0.5396662950515747,
2976
- "learning_rate": 2.7659574468085106e-07,
2977
- "loss": 2.1662,
2978
- "step": 423
2979
- },
2980
- {
2981
- "epoch": 1.4234158623583717,
2982
- "grad_norm": 0.5240216255187988,
2983
- "learning_rate": 2.760047281323877e-07,
2984
- "loss": 2.1325,
2985
- "step": 424
2986
- },
2987
- {
2988
- "epoch": 1.4267729752412925,
2989
- "grad_norm": 0.5430148243904114,
2990
- "learning_rate": 2.7541371158392436e-07,
2991
- "loss": 2.1475,
2992
- "step": 425
2993
- },
2994
- {
2995
- "epoch": 1.4301300881242132,
2996
- "grad_norm": 0.503663957118988,
2997
- "learning_rate": 2.74822695035461e-07,
2998
- "loss": 2.112,
2999
- "step": 426
3000
- },
3001
- {
3002
- "epoch": 1.4334872010071338,
3003
- "grad_norm": 0.5414028167724609,
3004
- "learning_rate": 2.742316784869976e-07,
3005
- "loss": 2.1421,
3006
- "step": 427
3007
- },
3008
- {
3009
- "epoch": 1.4368443138900546,
3010
- "grad_norm": 0.5510504841804504,
3011
- "learning_rate": 2.7364066193853423e-07,
3012
- "loss": 2.1442,
3013
- "step": 428
3014
- },
3015
- {
3016
- "epoch": 1.4402014267729752,
3017
- "grad_norm": 0.5682281851768494,
3018
- "learning_rate": 2.730496453900709e-07,
3019
- "loss": 2.1771,
3020
- "step": 429
3021
- },
3022
- {
3023
- "epoch": 1.4435585396558959,
3024
- "grad_norm": 0.5418784618377686,
3025
- "learning_rate": 2.7245862884160753e-07,
3026
- "loss": 2.1669,
3027
- "step": 430
3028
- },
3029
- {
3030
- "epoch": 1.4469156525388165,
3031
- "grad_norm": 0.5360921025276184,
3032
- "learning_rate": 2.718676122931442e-07,
3033
- "loss": 2.1464,
3034
- "step": 431
3035
- },
3036
- {
3037
- "epoch": 1.4502727654217373,
3038
- "grad_norm": 0.5701574683189392,
3039
- "learning_rate": 2.7127659574468084e-07,
3040
- "loss": 2.1822,
3041
- "step": 432
3042
- },
3043
- {
3044
- "epoch": 1.453629878304658,
3045
- "grad_norm": 0.5453020930290222,
3046
- "learning_rate": 2.7068557919621746e-07,
3047
- "loss": 2.1729,
3048
- "step": 433
3049
- },
3050
- {
3051
- "epoch": 1.4569869911875788,
3052
- "grad_norm": 0.5435007810592651,
3053
- "learning_rate": 2.700945626477541e-07,
3054
- "loss": 2.1511,
3055
- "step": 434
3056
- },
3057
- {
3058
- "epoch": 1.4603441040704994,
3059
- "grad_norm": 0.5011966228485107,
3060
- "learning_rate": 2.6950354609929076e-07,
3061
- "loss": 2.108,
3062
- "step": 435
3063
- },
3064
- {
3065
- "epoch": 1.46370121695342,
3066
- "grad_norm": 0.49755868315696716,
3067
- "learning_rate": 2.6891252955082744e-07,
3068
- "loss": 2.1776,
3069
- "step": 436
3070
- },
3071
- {
3072
- "epoch": 1.4670583298363407,
3073
- "grad_norm": 0.5629771947860718,
3074
- "learning_rate": 2.6832151300236406e-07,
3075
- "loss": 2.1493,
3076
- "step": 437
3077
- },
3078
- {
3079
- "epoch": 1.4704154427192615,
3080
- "grad_norm": 0.5360575914382935,
3081
- "learning_rate": 2.6773049645390074e-07,
3082
- "loss": 2.1732,
3083
- "step": 438
3084
- },
3085
- {
3086
- "epoch": 1.4737725556021821,
3087
- "grad_norm": 0.5516806840896606,
3088
- "learning_rate": 2.6713947990543736e-07,
3089
- "loss": 2.148,
3090
- "step": 439
3091
- },
3092
- {
3093
- "epoch": 1.4771296684851027,
3094
- "grad_norm": 0.5595859289169312,
3095
- "learning_rate": 2.66548463356974e-07,
3096
- "loss": 2.1671,
3097
- "step": 440
3098
- },
3099
- {
3100
- "epoch": 1.4804867813680236,
3101
- "grad_norm": 0.5414209365844727,
3102
- "learning_rate": 2.659574468085106e-07,
3103
- "loss": 2.1233,
3104
- "step": 441
3105
- },
3106
- {
3107
- "epoch": 1.4838438942509442,
3108
- "grad_norm": 0.5354856252670288,
3109
- "learning_rate": 2.653664302600473e-07,
3110
- "loss": 2.1921,
3111
- "step": 442
3112
- },
3113
- {
3114
- "epoch": 1.4872010071338648,
3115
- "grad_norm": 0.565666139125824,
3116
- "learning_rate": 2.647754137115839e-07,
3117
- "loss": 2.198,
3118
- "step": 443
3119
- },
3120
- {
3121
- "epoch": 1.4905581200167854,
3122
- "grad_norm": 0.5538352727890015,
3123
- "learning_rate": 2.641843971631206e-07,
3124
- "loss": 2.1396,
3125
- "step": 444
3126
- },
3127
- {
3128
- "epoch": 1.4939152328997063,
3129
- "grad_norm": 0.536029577255249,
3130
- "learning_rate": 2.635933806146572e-07,
3131
- "loss": 2.1811,
3132
- "step": 445
3133
- },
3134
- {
3135
- "epoch": 1.497272345782627,
3136
- "grad_norm": 0.5602884888648987,
3137
- "learning_rate": 2.6300236406619384e-07,
3138
- "loss": 2.1429,
3139
- "step": 446
3140
- },
3141
- {
3142
- "epoch": 1.5006294586655478,
3143
- "grad_norm": 0.5486292243003845,
3144
- "learning_rate": 2.6241134751773046e-07,
3145
- "loss": 2.1153,
3146
- "step": 447
3147
- },
3148
- {
3149
- "epoch": 1.5039865715484684,
3150
- "grad_norm": 0.5302276611328125,
3151
- "learning_rate": 2.6182033096926714e-07,
3152
- "loss": 2.1709,
3153
- "step": 448
3154
- },
3155
- {
3156
- "epoch": 1.507343684431389,
3157
- "grad_norm": 0.5530226230621338,
3158
- "learning_rate": 2.6122931442080376e-07,
3159
- "loss": 2.1891,
3160
- "step": 449
3161
- },
3162
- {
3163
- "epoch": 1.5107007973143096,
3164
- "grad_norm": 0.5639198422431946,
3165
- "learning_rate": 2.6063829787234044e-07,
3166
- "loss": 2.1415,
3167
- "step": 450
3168
- },
3169
- {
3170
- "epoch": 1.5140579101972302,
3171
- "grad_norm": 0.5313774943351746,
3172
- "learning_rate": 2.6004728132387706e-07,
3173
- "loss": 2.117,
3174
- "step": 451
3175
- },
3176
- {
3177
- "epoch": 1.517415023080151,
3178
- "grad_norm": 0.5192495584487915,
3179
- "learning_rate": 2.5945626477541374e-07,
3180
- "loss": 2.1827,
3181
- "step": 452
3182
- },
3183
- {
3184
- "epoch": 1.5207721359630717,
3185
- "grad_norm": 0.5575863718986511,
3186
- "learning_rate": 2.588652482269503e-07,
3187
- "loss": 2.1635,
3188
- "step": 453
3189
- },
3190
- {
3191
- "epoch": 1.5241292488459925,
3192
- "grad_norm": 0.569666862487793,
3193
- "learning_rate": 2.58274231678487e-07,
3194
- "loss": 2.1455,
3195
- "step": 454
3196
- },
3197
- {
3198
- "epoch": 1.5274863617289132,
3199
- "grad_norm": 0.5995537042617798,
3200
- "learning_rate": 2.576832151300236e-07,
3201
- "loss": 2.1799,
3202
- "step": 455
3203
- },
3204
- {
3205
- "epoch": 1.5308434746118338,
3206
- "grad_norm": 0.5367946624755859,
3207
- "learning_rate": 2.570921985815603e-07,
3208
- "loss": 2.1031,
3209
- "step": 456
3210
- },
3211
- {
3212
- "epoch": 1.5342005874947544,
3213
- "grad_norm": 0.5633010864257812,
3214
- "learning_rate": 2.565011820330969e-07,
3215
- "loss": 2.1116,
3216
- "step": 457
3217
- },
3218
- {
3219
- "epoch": 1.5375577003776753,
3220
- "grad_norm": 0.5201706886291504,
3221
- "learning_rate": 2.559101654846336e-07,
3222
- "loss": 2.1741,
3223
- "step": 458
3224
- },
3225
- {
3226
- "epoch": 1.5409148132605959,
3227
- "grad_norm": 0.5941653251647949,
3228
- "learning_rate": 2.5531914893617016e-07,
3229
- "loss": 2.2537,
3230
- "step": 459
3231
- },
3232
- {
3233
- "epoch": 1.5442719261435167,
3234
- "grad_norm": 0.5953680872917175,
3235
- "learning_rate": 2.5472813238770684e-07,
3236
- "loss": 2.1095,
3237
- "step": 460
3238
- },
3239
- {
3240
- "epoch": 1.5476290390264373,
3241
- "grad_norm": 0.5477280020713806,
3242
- "learning_rate": 2.5413711583924346e-07,
3243
- "loss": 2.1789,
3244
- "step": 461
3245
- },
3246
- {
3247
- "epoch": 1.550986151909358,
3248
- "grad_norm": 0.5424633622169495,
3249
- "learning_rate": 2.5354609929078014e-07,
3250
- "loss": 2.1394,
3251
- "step": 462
3252
- },
3253
- {
3254
- "epoch": 1.5543432647922786,
3255
- "grad_norm": 0.5671295523643494,
3256
- "learning_rate": 2.5295508274231676e-07,
3257
- "loss": 2.159,
3258
- "step": 463
3259
- },
3260
- {
3261
- "epoch": 1.5577003776751992,
3262
- "grad_norm": 0.5310060977935791,
3263
- "learning_rate": 2.5236406619385344e-07,
3264
- "loss": 2.1596,
3265
- "step": 464
3266
- },
3267
- {
3268
- "epoch": 1.56105749055812,
3269
- "grad_norm": 0.5472586154937744,
3270
- "learning_rate": 2.5177304964539e-07,
3271
- "loss": 2.1166,
3272
- "step": 465
3273
- },
3274
- {
3275
- "epoch": 1.5644146034410407,
3276
- "grad_norm": 0.5335962176322937,
3277
- "learning_rate": 2.511820330969267e-07,
3278
- "loss": 2.1427,
3279
- "step": 466
3280
- },
3281
- {
3282
- "epoch": 1.5677717163239615,
3283
- "grad_norm": 0.5123631954193115,
3284
- "learning_rate": 2.505910165484633e-07,
3285
- "loss": 2.0675,
3286
- "step": 467
3287
- },
3288
- {
3289
- "epoch": 1.5711288292068821,
3290
- "grad_norm": 0.5876572728157043,
3291
- "learning_rate": 2.5e-07,
3292
- "loss": 2.1258,
3293
- "step": 468
3294
- },
3295
- {
3296
- "epoch": 1.5744859420898027,
3297
- "grad_norm": 0.5395733118057251,
3298
- "learning_rate": 2.494089834515366e-07,
3299
- "loss": 2.1389,
3300
- "step": 469
3301
- },
3302
- {
3303
- "epoch": 1.5778430549727234,
3304
- "grad_norm": 0.5670069456100464,
3305
- "learning_rate": 2.488179669030733e-07,
3306
- "loss": 2.2214,
3307
- "step": 470
3308
- },
3309
- {
3310
- "epoch": 1.581200167855644,
3311
- "grad_norm": 0.5086778998374939,
3312
- "learning_rate": 2.482269503546099e-07,
3313
- "loss": 2.1135,
3314
- "step": 471
3315
- },
3316
- {
3317
- "epoch": 1.5845572807385648,
3318
- "grad_norm": 0.5723012089729309,
3319
- "learning_rate": 2.4763593380614654e-07,
3320
- "loss": 2.2149,
3321
- "step": 472
3322
- },
3323
- {
3324
- "epoch": 1.5879143936214857,
3325
- "grad_norm": 0.5220308303833008,
3326
- "learning_rate": 2.470449172576832e-07,
3327
- "loss": 2.1794,
3328
- "step": 473
3329
- },
3330
- {
3331
- "epoch": 1.5912715065044063,
3332
- "grad_norm": 0.5964010953903198,
3333
- "learning_rate": 2.4645390070921984e-07,
3334
- "loss": 2.2251,
3335
- "step": 474
3336
- },
3337
- {
3338
- "epoch": 1.594628619387327,
3339
- "grad_norm": 0.5133795738220215,
3340
- "learning_rate": 2.4586288416075646e-07,
3341
- "loss": 2.1747,
3342
- "step": 475
3343
- },
3344
- {
3345
- "epoch": 1.5979857322702475,
3346
- "grad_norm": 0.5728108286857605,
3347
- "learning_rate": 2.4527186761229314e-07,
3348
- "loss": 2.2154,
3349
- "step": 476
3350
- },
3351
- {
3352
- "epoch": 1.6013428451531682,
3353
- "grad_norm": 0.5136426687240601,
3354
- "learning_rate": 2.4468085106382976e-07,
3355
- "loss": 2.146,
3356
- "step": 477
3357
- },
3358
- {
3359
- "epoch": 1.604699958036089,
3360
- "grad_norm": 0.5617910027503967,
3361
- "learning_rate": 2.440898345153664e-07,
3362
- "loss": 2.1504,
3363
- "step": 478
3364
- },
3365
- {
3366
- "epoch": 1.6080570709190096,
3367
- "grad_norm": 0.5407204031944275,
3368
- "learning_rate": 2.4349881796690306e-07,
3369
- "loss": 2.1544,
3370
- "step": 479
3371
- },
3372
- {
3373
- "epoch": 1.6114141838019305,
3374
- "grad_norm": 0.5309438109397888,
3375
- "learning_rate": 2.429078014184397e-07,
3376
- "loss": 2.128,
3377
- "step": 480
3378
- },
3379
- {
3380
- "epoch": 1.614771296684851,
3381
- "grad_norm": 0.5255685448646545,
3382
- "learning_rate": 2.423167848699763e-07,
3383
- "loss": 2.0676,
3384
- "step": 481
3385
- },
3386
- {
3387
- "epoch": 1.6181284095677717,
3388
- "grad_norm": 0.5453495383262634,
3389
- "learning_rate": 2.41725768321513e-07,
3390
- "loss": 2.1854,
3391
- "step": 482
3392
- },
3393
- {
3394
- "epoch": 1.6214855224506923,
3395
- "grad_norm": 0.5266616940498352,
3396
- "learning_rate": 2.411347517730496e-07,
3397
- "loss": 2.145,
3398
- "step": 483
3399
- },
3400
- {
3401
- "epoch": 1.624842635333613,
3402
- "grad_norm": 0.5247876644134521,
3403
- "learning_rate": 2.4054373522458624e-07,
3404
- "loss": 2.1812,
3405
- "step": 484
3406
- },
3407
- {
3408
- "epoch": 1.6281997482165338,
3409
- "grad_norm": 0.5246554613113403,
3410
- "learning_rate": 2.399527186761229e-07,
3411
- "loss": 2.1136,
3412
- "step": 485
3413
- },
3414
- {
3415
- "epoch": 1.6315568610994544,
3416
- "grad_norm": 0.5595040917396545,
3417
- "learning_rate": 2.393617021276596e-07,
3418
- "loss": 2.1728,
3419
- "step": 486
3420
- },
3421
- {
3422
- "epoch": 1.6349139739823753,
3423
- "grad_norm": 0.533994197845459,
3424
- "learning_rate": 2.387706855791962e-07,
3425
- "loss": 2.0939,
3426
- "step": 487
3427
- },
3428
- {
3429
- "epoch": 1.6382710868652959,
3430
- "grad_norm": 0.5742591023445129,
3431
- "learning_rate": 2.3817966903073287e-07,
3432
- "loss": 2.148,
3433
- "step": 488
3434
- },
3435
- {
3436
- "epoch": 1.6416281997482165,
3437
- "grad_norm": 0.5369508266448975,
3438
- "learning_rate": 2.375886524822695e-07,
3439
- "loss": 2.1524,
3440
- "step": 489
3441
- },
3442
- {
3443
- "epoch": 1.6449853126311371,
3444
- "grad_norm": 0.5108909010887146,
3445
- "learning_rate": 2.3699763593380614e-07,
3446
- "loss": 2.1586,
3447
- "step": 490
3448
- },
3449
- {
3450
- "epoch": 1.648342425514058,
3451
- "grad_norm": 0.5841718912124634,
3452
- "learning_rate": 2.364066193853428e-07,
3453
- "loss": 2.1854,
3454
- "step": 491
3455
- },
3456
- {
3457
- "epoch": 1.6516995383969786,
3458
- "grad_norm": 0.6200852394104004,
3459
- "learning_rate": 2.3581560283687944e-07,
3460
- "loss": 2.1811,
3461
- "step": 492
3462
- },
3463
- {
3464
- "epoch": 1.6550566512798994,
3465
- "grad_norm": 0.5158974528312683,
3466
- "learning_rate": 2.3522458628841607e-07,
3467
- "loss": 2.1568,
3468
- "step": 493
3469
- },
3470
- {
3471
- "epoch": 1.65841376416282,
3472
- "grad_norm": 0.5737884044647217,
3473
- "learning_rate": 2.3463356973995272e-07,
3474
- "loss": 2.1639,
3475
- "step": 494
3476
- },
3477
- {
3478
- "epoch": 1.6617708770457407,
3479
- "grad_norm": 0.5661967396736145,
3480
- "learning_rate": 2.3404255319148937e-07,
3481
- "loss": 2.1164,
3482
- "step": 495
3483
- },
3484
- {
3485
- "epoch": 1.6651279899286613,
3486
- "grad_norm": 0.5981073379516602,
3487
- "learning_rate": 2.33451536643026e-07,
3488
- "loss": 2.1875,
3489
- "step": 496
3490
- },
3491
- {
3492
- "epoch": 1.668485102811582,
3493
- "grad_norm": 0.5757937431335449,
3494
- "learning_rate": 2.3286052009456264e-07,
3495
- "loss": 2.1315,
3496
- "step": 497
3497
- },
3498
- {
3499
- "epoch": 1.6718422156945028,
3500
- "grad_norm": 0.5519205927848816,
3501
- "learning_rate": 2.322695035460993e-07,
3502
- "loss": 2.1126,
3503
- "step": 498
3504
- },
3505
- {
3506
- "epoch": 1.6751993285774234,
3507
- "grad_norm": 0.5893654823303223,
3508
- "learning_rate": 2.3167848699763592e-07,
3509
- "loss": 2.1427,
3510
- "step": 499
3511
- },
3512
- {
3513
- "epoch": 1.6785564414603442,
3514
- "grad_norm": 0.5640158653259277,
3515
- "learning_rate": 2.3108747044917257e-07,
3516
- "loss": 2.1763,
3517
- "step": 500
3518
- },
3519
- {
3520
- "epoch": 1.6819135543432648,
3521
- "grad_norm": 0.5426249504089355,
3522
- "learning_rate": 2.3049645390070922e-07,
3523
- "loss": 2.0914,
3524
- "step": 501
3525
- },
3526
- {
3527
- "epoch": 1.6852706672261855,
3528
- "grad_norm": 0.5572645664215088,
3529
- "learning_rate": 2.2990543735224584e-07,
3530
- "loss": 2.1482,
3531
- "step": 502
3532
- },
3533
- {
3534
- "epoch": 1.688627780109106,
3535
- "grad_norm": 0.5625807642936707,
3536
- "learning_rate": 2.293144208037825e-07,
3537
- "loss": 2.1804,
3538
- "step": 503
3539
- },
3540
- {
3541
- "epoch": 1.6919848929920267,
3542
- "grad_norm": 0.56282639503479,
3543
- "learning_rate": 2.2872340425531914e-07,
3544
- "loss": 2.1613,
3545
- "step": 504
3546
- },
3547
- {
3548
- "epoch": 1.6953420058749475,
3549
- "grad_norm": 0.5359474420547485,
3550
- "learning_rate": 2.2813238770685577e-07,
3551
- "loss": 2.1019,
3552
- "step": 505
3553
- },
3554
- {
3555
- "epoch": 1.6986991187578684,
3556
- "grad_norm": 0.5989973545074463,
3557
- "learning_rate": 2.2754137115839242e-07,
3558
- "loss": 2.2191,
3559
- "step": 506
3560
- },
3561
- {
3562
- "epoch": 1.702056231640789,
3563
- "grad_norm": 0.5682387351989746,
3564
- "learning_rate": 2.2695035460992907e-07,
3565
- "loss": 2.1351,
3566
- "step": 507
3567
- },
3568
- {
3569
- "epoch": 1.7054133445237096,
3570
- "grad_norm": 0.5352203845977783,
3571
- "learning_rate": 2.2635933806146572e-07,
3572
- "loss": 2.1098,
3573
- "step": 508
3574
- },
3575
- {
3576
- "epoch": 1.7087704574066302,
3577
- "grad_norm": 0.5701361894607544,
3578
- "learning_rate": 2.2576832151300234e-07,
3579
- "loss": 2.163,
3580
- "step": 509
3581
- },
3582
- {
3583
- "epoch": 1.7121275702895509,
3584
- "grad_norm": 0.5832070112228394,
3585
- "learning_rate": 2.25177304964539e-07,
3586
- "loss": 2.1448,
3587
- "step": 510
3588
- },
3589
- {
3590
- "epoch": 1.7154846831724717,
3591
- "grad_norm": 0.5940104722976685,
3592
- "learning_rate": 2.2458628841607564e-07,
3593
- "loss": 2.1963,
3594
- "step": 511
3595
- },
3596
- {
3597
- "epoch": 1.7188417960553923,
3598
- "grad_norm": 0.5954880714416504,
3599
- "learning_rate": 2.2399527186761227e-07,
3600
- "loss": 2.1871,
3601
- "step": 512
3602
- },
3603
- {
3604
- "epoch": 1.7221989089383132,
3605
- "grad_norm": 0.5460233688354492,
3606
- "learning_rate": 2.2340425531914892e-07,
3607
- "loss": 2.1694,
3608
- "step": 513
3609
- },
3610
- {
3611
- "epoch": 1.7255560218212338,
3612
- "grad_norm": 0.5475773215293884,
3613
- "learning_rate": 2.2281323877068557e-07,
3614
- "loss": 2.1602,
3615
- "step": 514
3616
- },
3617
- {
3618
- "epoch": 1.7289131347041544,
3619
- "grad_norm": 0.5809094905853271,
3620
- "learning_rate": 2.222222222222222e-07,
3621
- "loss": 2.1808,
3622
- "step": 515
3623
- },
3624
- {
3625
- "epoch": 1.732270247587075,
3626
- "grad_norm": 0.5999802947044373,
3627
- "learning_rate": 2.2163120567375884e-07,
3628
- "loss": 2.1899,
3629
- "step": 516
3630
- },
3631
- {
3632
- "epoch": 1.7356273604699957,
3633
- "grad_norm": 0.5715625882148743,
3634
- "learning_rate": 2.2104018912529552e-07,
3635
- "loss": 2.0947,
3636
- "step": 517
3637
- },
3638
- {
3639
- "epoch": 1.7389844733529165,
3640
- "grad_norm": 0.5752885341644287,
3641
- "learning_rate": 2.2044917257683214e-07,
3642
- "loss": 2.1653,
3643
- "step": 518
3644
- },
3645
- {
3646
- "epoch": 1.7423415862358371,
3647
- "grad_norm": 0.5773462057113647,
3648
- "learning_rate": 2.198581560283688e-07,
3649
- "loss": 2.0973,
3650
- "step": 519
3651
- },
3652
- {
3653
- "epoch": 1.745698699118758,
3654
- "grad_norm": 0.528805136680603,
3655
- "learning_rate": 2.1926713947990544e-07,
3656
- "loss": 2.1449,
3657
- "step": 520
3658
- },
3659
- {
3660
- "epoch": 1.7490558120016786,
3661
- "grad_norm": 0.5383672714233398,
3662
- "learning_rate": 2.1867612293144207e-07,
3663
- "loss": 2.153,
3664
- "step": 521
3665
- },
3666
- {
3667
- "epoch": 1.7524129248845992,
3668
- "grad_norm": 0.534181535243988,
3669
- "learning_rate": 2.1808510638297872e-07,
3670
- "loss": 2.1449,
3671
- "step": 522
3672
- },
3673
- {
3674
- "epoch": 1.7557700377675198,
3675
- "grad_norm": 0.5447178483009338,
3676
- "learning_rate": 2.1749408983451537e-07,
3677
- "loss": 2.1375,
3678
- "step": 523
3679
- },
3680
- {
3681
- "epoch": 1.7591271506504407,
3682
- "grad_norm": 0.5227280855178833,
3683
- "learning_rate": 2.1690307328605202e-07,
3684
- "loss": 2.1,
3685
- "step": 524
3686
- },
3687
- {
3688
- "epoch": 1.7624842635333613,
3689
- "grad_norm": 0.579774796962738,
3690
- "learning_rate": 2.1631205673758864e-07,
3691
- "loss": 2.1619,
3692
- "step": 525
3693
- },
3694
- {
3695
- "epoch": 1.7658413764162821,
3696
- "grad_norm": 0.542693018913269,
3697
- "learning_rate": 2.157210401891253e-07,
3698
- "loss": 2.1568,
3699
- "step": 526
3700
- },
3701
- {
3702
- "epoch": 1.7691984892992028,
3703
- "grad_norm": 0.5392715334892273,
3704
- "learning_rate": 2.1513002364066194e-07,
3705
- "loss": 2.0959,
3706
- "step": 527
3707
- },
3708
- {
3709
- "epoch": 1.7725556021821234,
3710
- "grad_norm": 0.6038206219673157,
3711
- "learning_rate": 2.1453900709219857e-07,
3712
- "loss": 2.133,
3713
- "step": 528
3714
- },
3715
- {
3716
- "epoch": 1.775912715065044,
3717
- "grad_norm": 0.5537463426589966,
3718
- "learning_rate": 2.1394799054373522e-07,
3719
- "loss": 2.0817,
3720
- "step": 529
3721
- },
3722
- {
3723
- "epoch": 1.7792698279479646,
3724
- "grad_norm": 0.5747633576393127,
3725
- "learning_rate": 2.1335697399527187e-07,
3726
- "loss": 2.1342,
3727
- "step": 530
3728
- },
3729
- {
3730
- "epoch": 1.7826269408308855,
3731
- "grad_norm": 0.5527968406677246,
3732
- "learning_rate": 2.127659574468085e-07,
3733
- "loss": 2.184,
3734
- "step": 531
3735
- },
3736
- {
3737
- "epoch": 1.785984053713806,
3738
- "grad_norm": 0.5554253458976746,
3739
- "learning_rate": 2.1217494089834514e-07,
3740
- "loss": 2.1976,
3741
- "step": 532
3742
- },
3743
- {
3744
- "epoch": 1.789341166596727,
3745
- "grad_norm": 0.5290229916572571,
3746
- "learning_rate": 2.115839243498818e-07,
3747
- "loss": 2.102,
3748
- "step": 533
3749
- },
3750
- {
3751
- "epoch": 1.7926982794796475,
3752
- "grad_norm": 0.5803096890449524,
3753
- "learning_rate": 2.1099290780141842e-07,
3754
- "loss": 2.0815,
3755
- "step": 534
3756
- },
3757
- {
3758
- "epoch": 1.7960553923625682,
3759
- "grad_norm": 0.5680854916572571,
3760
- "learning_rate": 2.1040189125295507e-07,
3761
- "loss": 2.1338,
3762
- "step": 535
3763
- },
3764
- {
3765
- "epoch": 1.7994125052454888,
3766
- "grad_norm": 0.5866023302078247,
3767
- "learning_rate": 2.0981087470449172e-07,
3768
- "loss": 2.2191,
3769
- "step": 536
3770
- },
3771
- {
3772
- "epoch": 1.8027696181284094,
3773
- "grad_norm": 0.5355091691017151,
3774
- "learning_rate": 2.0921985815602834e-07,
3775
- "loss": 2.1312,
3776
- "step": 537
3777
- },
3778
- {
3779
- "epoch": 1.8061267310113303,
3780
- "grad_norm": 0.5850256681442261,
3781
- "learning_rate": 2.08628841607565e-07,
3782
- "loss": 2.1827,
3783
- "step": 538
3784
- },
3785
- {
3786
- "epoch": 1.809483843894251,
3787
- "grad_norm": 0.55758136510849,
3788
- "learning_rate": 2.0803782505910164e-07,
3789
- "loss": 2.1193,
3790
- "step": 539
3791
- },
3792
- {
3793
- "epoch": 1.8128409567771717,
3794
- "grad_norm": 0.5220862627029419,
3795
- "learning_rate": 2.074468085106383e-07,
3796
- "loss": 2.0888,
3797
- "step": 540
3798
- },
3799
- {
3800
- "epoch": 1.8161980696600923,
3801
- "grad_norm": 0.5545912981033325,
3802
- "learning_rate": 2.0685579196217492e-07,
3803
- "loss": 2.145,
3804
- "step": 541
3805
- },
3806
- {
3807
- "epoch": 1.819555182543013,
3808
- "grad_norm": 0.5699747204780579,
3809
- "learning_rate": 2.0626477541371157e-07,
3810
- "loss": 2.1653,
3811
- "step": 542
3812
- },
3813
- {
3814
- "epoch": 1.8229122954259336,
3815
- "grad_norm": 0.5698461532592773,
3816
- "learning_rate": 2.0567375886524822e-07,
3817
- "loss": 2.1712,
3818
- "step": 543
3819
- },
3820
- {
3821
- "epoch": 1.8262694083088544,
3822
- "grad_norm": 0.5370389223098755,
3823
- "learning_rate": 2.0508274231678484e-07,
3824
- "loss": 2.1847,
3825
- "step": 544
3826
- },
3827
- {
3828
- "epoch": 1.829626521191775,
3829
- "grad_norm": 0.5606624484062195,
3830
- "learning_rate": 2.044917257683215e-07,
3831
- "loss": 2.0752,
3832
- "step": 545
3833
- },
3834
- {
3835
- "epoch": 1.8329836340746959,
3836
- "grad_norm": 0.5884568691253662,
3837
- "learning_rate": 2.0390070921985815e-07,
3838
- "loss": 2.1874,
3839
- "step": 546
3840
- },
3841
- {
3842
- "epoch": 1.8363407469576165,
3843
- "grad_norm": 0.6082828640937805,
3844
- "learning_rate": 2.0330969267139477e-07,
3845
- "loss": 2.1356,
3846
- "step": 547
3847
- },
3848
- {
3849
- "epoch": 1.8396978598405371,
3850
- "grad_norm": 0.5440762042999268,
3851
- "learning_rate": 2.0271867612293142e-07,
3852
- "loss": 2.0869,
3853
- "step": 548
3854
- },
3855
- {
3856
- "epoch": 1.8430549727234578,
3857
- "grad_norm": 0.5322846174240112,
3858
- "learning_rate": 2.0212765957446807e-07,
3859
- "loss": 2.1622,
3860
- "step": 549
3861
- },
3862
- {
3863
- "epoch": 1.8464120856063784,
3864
- "grad_norm": 0.5313152074813843,
3865
- "learning_rate": 2.0153664302600472e-07,
3866
- "loss": 2.0519,
3867
- "step": 550
3868
- },
3869
- {
3870
- "epoch": 1.8497691984892992,
3871
- "grad_norm": 0.5677706599235535,
3872
- "learning_rate": 2.0094562647754137e-07,
3873
- "loss": 2.2212,
3874
- "step": 551
3875
- },
3876
- {
3877
- "epoch": 1.8531263113722198,
3878
- "grad_norm": 0.5602107644081116,
3879
- "learning_rate": 2.0035460992907802e-07,
3880
- "loss": 2.1296,
3881
- "step": 552
3882
- },
3883
- {
3884
- "epoch": 1.8564834242551407,
3885
- "grad_norm": 0.5556351542472839,
3886
- "learning_rate": 1.9976359338061465e-07,
3887
- "loss": 2.1571,
3888
- "step": 553
3889
- },
3890
- {
3891
- "epoch": 1.8598405371380613,
3892
- "grad_norm": 0.5427154898643494,
3893
- "learning_rate": 1.991725768321513e-07,
3894
- "loss": 2.1372,
3895
- "step": 554
3896
- },
3897
- {
3898
- "epoch": 1.863197650020982,
3899
- "grad_norm": 0.5443682670593262,
3900
- "learning_rate": 1.9858156028368795e-07,
3901
- "loss": 2.1526,
3902
- "step": 555
3903
- },
3904
- {
3905
- "epoch": 1.8665547629039025,
3906
- "grad_norm": 0.5522770285606384,
3907
- "learning_rate": 1.979905437352246e-07,
3908
- "loss": 2.1571,
3909
- "step": 556
3910
- },
3911
- {
3912
- "epoch": 1.8699118757868234,
3913
- "grad_norm": 0.5588672161102295,
3914
- "learning_rate": 1.9739952718676122e-07,
3915
- "loss": 2.1527,
3916
- "step": 557
3917
- },
3918
- {
3919
- "epoch": 1.873268988669744,
3920
- "grad_norm": 0.6060850620269775,
3921
- "learning_rate": 1.9680851063829787e-07,
3922
- "loss": 2.1447,
3923
- "step": 558
3924
- },
3925
- {
3926
- "epoch": 1.8766261015526648,
3927
- "grad_norm": 0.5418441295623779,
3928
- "learning_rate": 1.9621749408983452e-07,
3929
- "loss": 2.1542,
3930
- "step": 559
3931
- },
3932
- {
3933
- "epoch": 1.8799832144355855,
3934
- "grad_norm": 0.568583607673645,
3935
- "learning_rate": 1.9562647754137115e-07,
3936
- "loss": 2.2024,
3937
- "step": 560
3938
- },
3939
- {
3940
- "epoch": 1.883340327318506,
3941
- "grad_norm": 0.566670298576355,
3942
- "learning_rate": 1.950354609929078e-07,
3943
- "loss": 2.1991,
3944
- "step": 561
3945
- },
3946
- {
3947
- "epoch": 1.8866974402014267,
3948
- "grad_norm": 0.5521290898323059,
3949
- "learning_rate": 1.9444444444444445e-07,
3950
- "loss": 2.2061,
3951
- "step": 562
3952
- },
3953
- {
3954
- "epoch": 1.8900545530843473,
3955
- "grad_norm": 0.5575881600379944,
3956
- "learning_rate": 1.9385342789598107e-07,
3957
- "loss": 2.1835,
3958
- "step": 563
3959
- },
3960
- {
3961
- "epoch": 1.8934116659672682,
3962
- "grad_norm": 0.5508525967597961,
3963
- "learning_rate": 1.9326241134751772e-07,
3964
- "loss": 2.0749,
3965
- "step": 564
3966
- },
3967
- {
3968
- "epoch": 1.8967687788501888,
3969
- "grad_norm": 0.539969801902771,
3970
- "learning_rate": 1.9267139479905437e-07,
3971
- "loss": 2.1327,
3972
- "step": 565
3973
- },
3974
- {
3975
- "epoch": 1.9001258917331096,
3976
- "grad_norm": 0.581095814704895,
3977
- "learning_rate": 1.92080378250591e-07,
3978
- "loss": 2.097,
3979
- "step": 566
3980
- },
3981
- {
3982
- "epoch": 1.9034830046160303,
3983
- "grad_norm": 0.5551554560661316,
3984
- "learning_rate": 1.9148936170212765e-07,
3985
- "loss": 2.2112,
3986
- "step": 567
3987
- },
3988
- {
3989
- "epoch": 1.9068401174989509,
3990
- "grad_norm": 0.5533036589622498,
3991
- "learning_rate": 1.908983451536643e-07,
3992
- "loss": 2.1712,
3993
- "step": 568
3994
- },
3995
- {
3996
- "epoch": 1.9101972303818715,
3997
- "grad_norm": 0.5222402811050415,
3998
- "learning_rate": 1.9030732860520092e-07,
3999
- "loss": 2.1152,
4000
- "step": 569
4001
- },
4002
- {
4003
- "epoch": 1.9135543432647921,
4004
- "grad_norm": 0.5835478901863098,
4005
- "learning_rate": 1.8971631205673757e-07,
4006
- "loss": 2.0906,
4007
- "step": 570
4008
- },
4009
- {
4010
- "epoch": 1.916911456147713,
4011
- "grad_norm": 0.5896159410476685,
4012
- "learning_rate": 1.8912529550827422e-07,
4013
- "loss": 2.1444,
4014
- "step": 571
4015
- },
4016
- {
4017
- "epoch": 1.9202685690306338,
4018
- "grad_norm": 0.5776488184928894,
4019
- "learning_rate": 1.8853427895981087e-07,
4020
- "loss": 2.163,
4021
- "step": 572
4022
- },
4023
- {
4024
- "epoch": 1.9236256819135544,
4025
- "grad_norm": 0.6126729249954224,
4026
- "learning_rate": 1.879432624113475e-07,
4027
- "loss": 2.144,
4028
- "step": 573
4029
- },
4030
- {
4031
- "epoch": 1.926982794796475,
4032
- "grad_norm": 0.5623863339424133,
4033
- "learning_rate": 1.8735224586288415e-07,
4034
- "loss": 2.1958,
4035
- "step": 574
4036
- },
4037
- {
4038
- "epoch": 1.9303399076793957,
4039
- "grad_norm": 0.5552009344100952,
4040
- "learning_rate": 1.867612293144208e-07,
4041
- "loss": 2.128,
4042
- "step": 575
4043
- },
4044
- {
4045
- "epoch": 1.9336970205623163,
4046
- "grad_norm": 0.5190218687057495,
4047
- "learning_rate": 1.8617021276595742e-07,
4048
- "loss": 2.1553,
4049
- "step": 576
4050
- },
4051
- {
4052
- "epoch": 1.9370541334452371,
4053
- "grad_norm": 0.5255279541015625,
4054
- "learning_rate": 1.8557919621749407e-07,
4055
- "loss": 2.148,
4056
- "step": 577
4057
- },
4058
- {
4059
- "epoch": 1.9404112463281578,
4060
- "grad_norm": 0.5752416253089905,
4061
- "learning_rate": 1.8498817966903072e-07,
4062
- "loss": 2.1934,
4063
- "step": 578
4064
- },
4065
- {
4066
- "epoch": 1.9437683592110786,
4067
- "grad_norm": 0.532777726650238,
4068
- "learning_rate": 1.8439716312056735e-07,
4069
- "loss": 2.0636,
4070
- "step": 579
4071
- },
4072
- {
4073
- "epoch": 1.9471254720939992,
4074
- "grad_norm": 0.5603284239768982,
4075
- "learning_rate": 1.83806146572104e-07,
4076
- "loss": 2.1411,
4077
- "step": 580
4078
- },
4079
- {
4080
- "epoch": 1.9504825849769198,
4081
- "grad_norm": 0.5280658006668091,
4082
- "learning_rate": 1.8321513002364065e-07,
4083
- "loss": 2.1211,
4084
- "step": 581
4085
- },
4086
- {
4087
- "epoch": 1.9538396978598405,
4088
- "grad_norm": 0.5879082679748535,
4089
- "learning_rate": 1.826241134751773e-07,
4090
- "loss": 2.1186,
4091
- "step": 582
4092
- },
4093
- {
4094
- "epoch": 1.957196810742761,
4095
- "grad_norm": 0.5637861490249634,
4096
- "learning_rate": 1.8203309692671395e-07,
4097
- "loss": 2.112,
4098
- "step": 583
4099
- },
4100
- {
4101
- "epoch": 1.960553923625682,
4102
- "grad_norm": 0.5610608458518982,
4103
- "learning_rate": 1.814420803782506e-07,
4104
- "loss": 2.1645,
4105
- "step": 584
4106
- },
4107
- {
4108
- "epoch": 1.9639110365086025,
4109
- "grad_norm": 0.5636882185935974,
4110
- "learning_rate": 1.8085106382978725e-07,
4111
- "loss": 2.1192,
4112
- "step": 585
4113
- },
4114
- {
4115
- "epoch": 1.9672681493915234,
4116
- "grad_norm": 0.5535016059875488,
4117
- "learning_rate": 1.8026004728132387e-07,
4118
- "loss": 2.1384,
4119
- "step": 586
4120
- },
4121
- {
4122
- "epoch": 1.970625262274444,
4123
- "grad_norm": 0.5968726873397827,
4124
- "learning_rate": 1.7966903073286052e-07,
4125
- "loss": 2.1896,
4126
- "step": 587
4127
- },
4128
- {
4129
- "epoch": 1.9739823751573646,
4130
- "grad_norm": 0.5755752325057983,
4131
- "learning_rate": 1.7907801418439718e-07,
4132
- "loss": 2.1582,
4133
- "step": 588
4134
- },
4135
- {
4136
- "epoch": 1.9773394880402853,
4137
- "grad_norm": 0.5775538086891174,
4138
- "learning_rate": 1.784869976359338e-07,
4139
- "loss": 2.1839,
4140
- "step": 589
4141
- },
4142
- {
4143
- "epoch": 1.980696600923206,
4144
- "grad_norm": 0.5270890593528748,
4145
- "learning_rate": 1.7789598108747045e-07,
4146
- "loss": 2.083,
4147
- "step": 590
4148
- },
4149
- {
4150
- "epoch": 1.9840537138061267,
4151
- "grad_norm": 0.5608636140823364,
4152
- "learning_rate": 1.773049645390071e-07,
4153
- "loss": 2.1341,
4154
- "step": 591
4155
- },
4156
- {
4157
- "epoch": 1.9874108266890476,
4158
- "grad_norm": 0.5662211179733276,
4159
- "learning_rate": 1.7671394799054372e-07,
4160
- "loss": 2.151,
4161
- "step": 592
4162
- },
4163
- {
4164
- "epoch": 1.9907679395719682,
4165
- "grad_norm": 0.5171293020248413,
4166
- "learning_rate": 1.7612293144208037e-07,
4167
- "loss": 2.189,
4168
- "step": 593
4169
- },
4170
- {
4171
- "epoch": 1.9941250524548888,
4172
- "grad_norm": 0.543449878692627,
4173
- "learning_rate": 1.7553191489361703e-07,
4174
- "loss": 2.0942,
4175
- "step": 594
4176
- },
4177
- {
4178
- "epoch": 1.9974821653378094,
4179
- "grad_norm": 0.5563431978225708,
4180
- "learning_rate": 1.7494089834515365e-07,
4181
- "loss": 2.1623,
4182
- "step": 595
4183
- },
4184
- {
4185
- "epoch": 1.9974821653378094,
4186
- "eval_loss": 2.154229164123535,
4187
- "eval_runtime": 325.0894,
4188
- "eval_samples_per_second": 1.114,
4189
- "eval_steps_per_second": 0.28,
4190
- "step": 595
4191
  }
4192
  ],
4193
  "logging_steps": 1,
@@ -4207,7 +2113,7 @@
4207
  "attributes": {}
4208
  }
4209
  },
4210
- "total_flos": 1.758890208692011e+18,
4211
  "train_batch_size": 2,
4212
  "trial_name": null,
4213
  "trial_params": null
 
1
  {
2
+ "best_metric": 2.169156074523926,
3
+ "best_model_checkpoint": "/home/sunggeunan/data/ICL/outputs/lora/SKIML-ICL_mrqa_nq_v3/Meta-Llama-3-8B-Instruct-unanswerable-1Q-0U-0C-qa_first/checkpoint-297",
4
+ "epoch": 0.9970625262274444,
5
  "eval_steps": 500,
6
+ "global_step": 297,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2094
  "eval_samples_per_second": 1.004,
2095
  "eval_steps_per_second": 0.252,
2096
  "step": 297
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2097
  }
2098
  ],
2099
  "logging_steps": 1,
 
2113
  "attributes": {}
2114
  }
2115
  },
2116
+ "total_flos": 8.794451043460055e+17,
2117
  "train_batch_size": 2,
2118
  "trial_name": null,
2119
  "trial_params": null