Vivaan21 commited on
Commit
5a11d61
1 Parent(s): 17998ea

Training in progress, step 50, checkpoint

Browse files
last-checkpoint/adapter_config.json CHANGED
@@ -20,13 +20,13 @@
20
  "rank_pattern": {},
21
  "revision": null,
22
  "target_modules": [
23
- "down_proj",
24
- "v_proj",
25
- "o_proj",
26
- "k_proj",
27
  "q_proj",
 
28
  "up_proj",
29
- "gate_proj"
 
 
 
30
  ],
31
  "task_type": "CAUSAL_LM",
32
  "use_dora": false,
 
20
  "rank_pattern": {},
21
  "revision": null,
22
  "target_modules": [
 
 
 
 
23
  "q_proj",
24
+ "gate_proj",
25
  "up_proj",
26
+ "o_proj",
27
+ "down_proj",
28
+ "k_proj",
29
+ "v_proj"
30
  ],
31
  "task_type": "CAUSAL_LM",
32
  "use_dora": false,
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7c78281bd0c0ce0d995c6529c137c2f59f5e28d6236147ae87a5653be04c8cda
3
  size 42002584
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:90e6f7f1355e0b50e6787ad798e52ba61bc8a3c2fe93f8979c59fce5aad3fa7b
3
  size 42002584
last-checkpoint/global_step50/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e914707988b4014dd81cea11f08feb288ad7c488c1bebc5b607ecc019876d734
3
  size 251710672
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:72f56582a1543996046e5f08a23017fc4cf300f72ec2f806e0e9187834c04390
3
  size 251710672
last-checkpoint/global_step50/mp_rank_00_model_states.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:284105e06d238d8428013c20adf67df65454fa2b6aa55d0a236e1f5bb985a354
3
  size 153726841
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c1a0f522ad56a8fd99f7087ab3d4067072ddcf9bee87a31166e48f08109c5d86
3
  size 153726841
last-checkpoint/latest CHANGED
@@ -1 +1 @@
1
- global_step100
 
1
+ global_step50
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0c2063b95060e60409af367f8752ca270dbc5da979bb7aecd30bf77c7bf56b63
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1b5815cfe0a312f88454f2cd698ee65c6bbb0eadab8665cc149e714a36be932a
3
  size 14244
last-checkpoint/trainer_state.json CHANGED
@@ -1,712 +1,362 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.6116207951070336,
5
  "eval_steps": 1000,
6
- "global_step": 100,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
  "epoch": 0.0061162079510703364,
13
- "grad_norm": 16.1263370513916,
14
  "learning_rate": 0.0,
15
- "loss": 3.3793,
16
  "step": 1
17
  },
18
  {
19
  "epoch": 0.012232415902140673,
20
- "grad_norm": 8.512293815612793,
21
  "learning_rate": 8.613531161467861e-05,
22
- "loss": 3.4382,
23
  "step": 2
24
  },
25
  {
26
  "epoch": 0.01834862385321101,
27
- "grad_norm": 10.34029483795166,
28
  "learning_rate": 0.00013652123889719707,
29
- "loss": 3.7362,
30
  "step": 3
31
  },
32
  {
33
  "epoch": 0.024464831804281346,
34
- "grad_norm": 8.391839981079102,
35
  "learning_rate": 0.00017227062322935723,
36
- "loss": 3.0307,
37
  "step": 4
38
  },
39
  {
40
  "epoch": 0.03058103975535168,
41
- "grad_norm": 7.586355686187744,
42
  "learning_rate": 0.0002,
43
- "loss": 2.8996,
44
  "step": 5
45
  },
46
  {
47
  "epoch": 0.03669724770642202,
48
- "grad_norm": 19.746885299682617,
49
  "learning_rate": 0.0002,
50
- "loss": 3.4578,
51
  "step": 6
52
  },
53
  {
54
  "epoch": 0.04281345565749235,
55
- "grad_norm": 11.902972221374512,
56
  "learning_rate": 0.0001979166666666667,
57
- "loss": 2.4257,
58
  "step": 7
59
  },
60
  {
61
  "epoch": 0.04892966360856269,
62
- "grad_norm": 11.111593246459961,
63
  "learning_rate": 0.00019583333333333334,
64
- "loss": 3.2545,
65
  "step": 8
66
  },
67
  {
68
  "epoch": 0.05504587155963303,
69
- "grad_norm": 8.549432754516602,
70
  "learning_rate": 0.00019375000000000002,
71
- "loss": 2.5779,
72
  "step": 9
73
  },
74
  {
75
  "epoch": 0.06116207951070336,
76
- "grad_norm": 9.214991569519043,
77
  "learning_rate": 0.00019166666666666667,
78
- "loss": 3.1046,
79
  "step": 10
80
  },
81
  {
82
  "epoch": 0.0672782874617737,
83
- "grad_norm": 17.514488220214844,
84
  "learning_rate": 0.00018958333333333332,
85
- "loss": 3.1392,
86
  "step": 11
87
  },
88
  {
89
  "epoch": 0.07339449541284404,
90
- "grad_norm": 9.559965133666992,
91
  "learning_rate": 0.0001875,
92
- "loss": 2.1743,
93
  "step": 12
94
  },
95
  {
96
  "epoch": 0.07951070336391437,
97
- "grad_norm": 9.440308570861816,
98
  "learning_rate": 0.00018541666666666668,
99
- "loss": 2.9922,
100
  "step": 13
101
  },
102
  {
103
  "epoch": 0.0856269113149847,
104
- "grad_norm": 11.202484130859375,
105
  "learning_rate": 0.00018333333333333334,
106
- "loss": 2.1859,
107
  "step": 14
108
  },
109
  {
110
  "epoch": 0.09174311926605505,
111
- "grad_norm": 8.477638244628906,
112
  "learning_rate": 0.00018125000000000001,
113
- "loss": 2.7701,
114
  "step": 15
115
  },
116
  {
117
  "epoch": 0.09785932721712538,
118
- "grad_norm": 8.469841003417969,
119
  "learning_rate": 0.0001791666666666667,
120
- "loss": 1.9663,
121
  "step": 16
122
  },
123
  {
124
  "epoch": 0.10397553516819572,
125
- "grad_norm": 10.58810043334961,
126
  "learning_rate": 0.00017708333333333335,
127
- "loss": 2.6895,
128
  "step": 17
129
  },
130
  {
131
  "epoch": 0.11009174311926606,
132
- "grad_norm": 7.477241516113281,
133
  "learning_rate": 0.000175,
134
- "loss": 2.3032,
135
  "step": 18
136
  },
137
  {
138
  "epoch": 0.1162079510703364,
139
- "grad_norm": 7.495728969573975,
140
  "learning_rate": 0.00017291666666666668,
141
- "loss": 2.6739,
142
  "step": 19
143
  },
144
  {
145
  "epoch": 0.12232415902140673,
146
- "grad_norm": 12.991828918457031,
147
  "learning_rate": 0.00017083333333333333,
148
- "loss": 2.4438,
149
  "step": 20
150
  },
151
  {
152
  "epoch": 0.12844036697247707,
153
- "grad_norm": 8.729331970214844,
154
  "learning_rate": 0.00016875,
155
- "loss": 3.3064,
156
  "step": 21
157
  },
158
  {
159
  "epoch": 0.1345565749235474,
160
- "grad_norm": 8.71668529510498,
161
  "learning_rate": 0.0001666666666666667,
162
- "loss": 2.7545,
163
  "step": 22
164
  },
165
  {
166
  "epoch": 0.14067278287461774,
167
- "grad_norm": 12.056118965148926,
168
  "learning_rate": 0.00016458333333333334,
169
- "loss": 3.132,
170
  "step": 23
171
  },
172
  {
173
  "epoch": 0.14678899082568808,
174
- "grad_norm": 8.363462448120117,
175
  "learning_rate": 0.00016250000000000002,
176
- "loss": 2.2848,
177
  "step": 24
178
  },
179
  {
180
  "epoch": 0.1529051987767584,
181
- "grad_norm": 6.848036289215088,
182
  "learning_rate": 0.00016041666666666667,
183
- "loss": 1.7651,
184
  "step": 25
185
  },
186
  {
187
  "epoch": 0.15902140672782875,
188
- "grad_norm": 7.1675615310668945,
189
  "learning_rate": 0.00015833333333333332,
190
- "loss": 2.6271,
191
  "step": 26
192
  },
193
  {
194
  "epoch": 0.1651376146788991,
195
- "grad_norm": 10.08026123046875,
196
  "learning_rate": 0.00015625,
197
- "loss": 2.2688,
198
  "step": 27
199
  },
200
  {
201
  "epoch": 0.1712538226299694,
202
- "grad_norm": 8.645071029663086,
203
  "learning_rate": 0.00015416666666666668,
204
- "loss": 2.9097,
205
  "step": 28
206
  },
207
  {
208
  "epoch": 0.17737003058103976,
209
- "grad_norm": 6.98000431060791,
210
  "learning_rate": 0.00015208333333333333,
211
- "loss": 2.7872,
212
  "step": 29
213
  },
214
  {
215
  "epoch": 0.1834862385321101,
216
- "grad_norm": 6.9742560386657715,
217
  "learning_rate": 0.00015000000000000001,
218
- "loss": 2.9148,
219
  "step": 30
220
  },
221
  {
222
  "epoch": 0.18960244648318042,
223
- "grad_norm": 5.420623779296875,
224
  "learning_rate": 0.0001479166666666667,
225
- "loss": 0.9129,
226
  "step": 31
227
  },
228
  {
229
  "epoch": 0.19571865443425077,
230
- "grad_norm": 12.639835357666016,
231
  "learning_rate": 0.00014583333333333335,
232
- "loss": 2.4444,
233
  "step": 32
234
  },
235
  {
236
  "epoch": 0.2018348623853211,
237
- "grad_norm": 8.219498634338379,
238
  "learning_rate": 0.00014375,
239
- "loss": 3.1908,
240
  "step": 33
241
  },
242
  {
243
  "epoch": 0.20795107033639143,
244
- "grad_norm": 8.683309555053711,
245
  "learning_rate": 0.00014166666666666668,
246
- "loss": 1.4347,
247
  "step": 34
248
  },
249
  {
250
  "epoch": 0.21406727828746178,
251
- "grad_norm": 4.826633453369141,
252
  "learning_rate": 0.00013958333333333333,
253
- "loss": 0.2735,
254
  "step": 35
255
  },
256
  {
257
  "epoch": 0.22018348623853212,
258
- "grad_norm": 9.145024299621582,
259
  "learning_rate": 0.0001375,
260
- "loss": 2.7708,
261
  "step": 36
262
  },
263
  {
264
  "epoch": 0.22629969418960244,
265
- "grad_norm": 8.790327072143555,
266
  "learning_rate": 0.0001354166666666667,
267
- "loss": 2.6701,
268
  "step": 37
269
  },
270
  {
271
  "epoch": 0.2324159021406728,
272
- "grad_norm": 6.990255832672119,
273
  "learning_rate": 0.00013333333333333334,
274
- "loss": 2.3356,
275
  "step": 38
276
  },
277
  {
278
  "epoch": 0.23853211009174313,
279
- "grad_norm": 11.23058795928955,
280
  "learning_rate": 0.00013125000000000002,
281
- "loss": 3.2203,
282
  "step": 39
283
  },
284
  {
285
  "epoch": 0.24464831804281345,
286
- "grad_norm": 7.904042720794678,
287
  "learning_rate": 0.00012916666666666667,
288
- "loss": 1.2911,
289
  "step": 40
290
  },
291
  {
292
  "epoch": 0.25076452599388377,
293
- "grad_norm": 9.774896621704102,
294
  "learning_rate": 0.00012708333333333332,
295
- "loss": 2.8087,
296
  "step": 41
297
  },
298
  {
299
  "epoch": 0.25688073394495414,
300
- "grad_norm": 9.185710906982422,
301
  "learning_rate": 0.000125,
302
- "loss": 2.0017,
303
  "step": 42
304
  },
305
  {
306
  "epoch": 0.26299694189602446,
307
- "grad_norm": 6.287588119506836,
308
  "learning_rate": 0.00012291666666666668,
309
- "loss": 1.4049,
310
  "step": 43
311
  },
312
  {
313
  "epoch": 0.2691131498470948,
314
- "grad_norm": 7.5378923416137695,
315
  "learning_rate": 0.00012083333333333333,
316
- "loss": 3.1951,
317
  "step": 44
318
  },
319
  {
320
  "epoch": 0.27522935779816515,
321
- "grad_norm": 8.957230567932129,
322
  "learning_rate": 0.00011875,
323
- "loss": 3.1533,
324
  "step": 45
325
  },
326
  {
327
  "epoch": 0.28134556574923547,
328
- "grad_norm": 8.327722549438477,
329
  "learning_rate": 0.00011666666666666668,
330
- "loss": 3.4661,
331
  "step": 46
332
  },
333
  {
334
  "epoch": 0.2874617737003058,
335
- "grad_norm": 4.977812767028809,
336
  "learning_rate": 0.00011458333333333333,
337
- "loss": 0.8745,
338
  "step": 47
339
  },
340
  {
341
  "epoch": 0.29357798165137616,
342
- "grad_norm": 6.470073699951172,
343
  "learning_rate": 0.00011250000000000001,
344
- "loss": 1.6645,
345
  "step": 48
346
  },
347
  {
348
  "epoch": 0.2996941896024465,
349
- "grad_norm": 6.584192752838135,
350
  "learning_rate": 0.00011041666666666668,
351
- "loss": 2.4116,
352
  "step": 49
353
  },
354
  {
355
  "epoch": 0.3058103975535168,
356
- "grad_norm": 5.844992160797119,
357
  "learning_rate": 0.00010833333333333333,
358
- "loss": 2.1969,
359
  "step": 50
360
- },
361
- {
362
- "epoch": 0.3119266055045872,
363
- "grad_norm": 6.529269695281982,
364
- "learning_rate": 0.00010625000000000001,
365
- "loss": 2.7562,
366
- "step": 51
367
- },
368
- {
369
- "epoch": 0.3180428134556575,
370
- "grad_norm": 6.519890308380127,
371
- "learning_rate": 0.00010416666666666667,
372
- "loss": 1.6187,
373
- "step": 52
374
- },
375
- {
376
- "epoch": 0.3241590214067278,
377
- "grad_norm": 5.84199333190918,
378
- "learning_rate": 0.00010208333333333333,
379
- "loss": 1.4098,
380
- "step": 53
381
- },
382
- {
383
- "epoch": 0.3302752293577982,
384
- "grad_norm": 5.9514336585998535,
385
- "learning_rate": 0.0001,
386
- "loss": 1.3005,
387
- "step": 54
388
- },
389
- {
390
- "epoch": 0.3363914373088685,
391
- "grad_norm": 5.569624423980713,
392
- "learning_rate": 9.791666666666667e-05,
393
- "loss": 1.8324,
394
- "step": 55
395
- },
396
- {
397
- "epoch": 0.3425076452599388,
398
- "grad_norm": 6.462126731872559,
399
- "learning_rate": 9.583333333333334e-05,
400
- "loss": 1.5223,
401
- "step": 56
402
- },
403
- {
404
- "epoch": 0.3486238532110092,
405
- "grad_norm": 5.906198501586914,
406
- "learning_rate": 9.375e-05,
407
- "loss": 1.8126,
408
- "step": 57
409
- },
410
- {
411
- "epoch": 0.3547400611620795,
412
- "grad_norm": 8.181982040405273,
413
- "learning_rate": 9.166666666666667e-05,
414
- "loss": 1.5992,
415
- "step": 58
416
- },
417
- {
418
- "epoch": 0.36085626911314983,
419
- "grad_norm": 4.730391979217529,
420
- "learning_rate": 8.958333333333335e-05,
421
- "loss": 1.6709,
422
- "step": 59
423
- },
424
- {
425
- "epoch": 0.3669724770642202,
426
- "grad_norm": 5.18928337097168,
427
- "learning_rate": 8.75e-05,
428
- "loss": 1.7399,
429
- "step": 60
430
- },
431
- {
432
- "epoch": 0.3730886850152905,
433
- "grad_norm": 7.227060317993164,
434
- "learning_rate": 8.541666666666666e-05,
435
- "loss": 2.1354,
436
- "step": 61
437
- },
438
- {
439
- "epoch": 0.37920489296636084,
440
- "grad_norm": 6.325191497802734,
441
- "learning_rate": 8.333333333333334e-05,
442
- "loss": 2.2917,
443
- "step": 62
444
- },
445
- {
446
- "epoch": 0.3853211009174312,
447
- "grad_norm": 7.269418239593506,
448
- "learning_rate": 8.125000000000001e-05,
449
- "loss": 2.4691,
450
- "step": 63
451
- },
452
- {
453
- "epoch": 0.39143730886850153,
454
- "grad_norm": 9.848830223083496,
455
- "learning_rate": 7.916666666666666e-05,
456
- "loss": 2.9251,
457
- "step": 64
458
- },
459
- {
460
- "epoch": 0.39755351681957185,
461
- "grad_norm": 2.8502776622772217,
462
- "learning_rate": 7.708333333333334e-05,
463
- "loss": 0.1757,
464
- "step": 65
465
- },
466
- {
467
- "epoch": 0.4036697247706422,
468
- "grad_norm": 4.723325252532959,
469
- "learning_rate": 7.500000000000001e-05,
470
- "loss": 1.3464,
471
- "step": 66
472
- },
473
- {
474
- "epoch": 0.40978593272171254,
475
- "grad_norm": 8.410296440124512,
476
- "learning_rate": 7.291666666666667e-05,
477
- "loss": 2.6273,
478
- "step": 67
479
- },
480
- {
481
- "epoch": 0.41590214067278286,
482
- "grad_norm": 7.364680290222168,
483
- "learning_rate": 7.083333333333334e-05,
484
- "loss": 2.2223,
485
- "step": 68
486
- },
487
- {
488
- "epoch": 0.42201834862385323,
489
- "grad_norm": 7.319981575012207,
490
- "learning_rate": 6.875e-05,
491
- "loss": 1.9165,
492
- "step": 69
493
- },
494
- {
495
- "epoch": 0.42813455657492355,
496
- "grad_norm": 6.94813346862793,
497
- "learning_rate": 6.666666666666667e-05,
498
- "loss": 2.2407,
499
- "step": 70
500
- },
501
- {
502
- "epoch": 0.43425076452599387,
503
- "grad_norm": 6.473064422607422,
504
- "learning_rate": 6.458333333333334e-05,
505
- "loss": 1.212,
506
- "step": 71
507
- },
508
- {
509
- "epoch": 0.44036697247706424,
510
- "grad_norm": 8.280125617980957,
511
- "learning_rate": 6.25e-05,
512
- "loss": 2.5599,
513
- "step": 72
514
- },
515
- {
516
- "epoch": 0.44648318042813456,
517
- "grad_norm": 7.279771327972412,
518
- "learning_rate": 6.041666666666667e-05,
519
- "loss": 2.2878,
520
- "step": 73
521
- },
522
- {
523
- "epoch": 0.4525993883792049,
524
- "grad_norm": 8.446040153503418,
525
- "learning_rate": 5.833333333333334e-05,
526
- "loss": 2.9793,
527
- "step": 74
528
- },
529
- {
530
- "epoch": 0.45871559633027525,
531
- "grad_norm": 4.083460330963135,
532
- "learning_rate": 5.6250000000000005e-05,
533
- "loss": 0.8241,
534
- "step": 75
535
- },
536
- {
537
- "epoch": 0.4648318042813456,
538
- "grad_norm": 4.364982604980469,
539
- "learning_rate": 5.4166666666666664e-05,
540
- "loss": 0.3777,
541
- "step": 76
542
- },
543
- {
544
- "epoch": 0.4709480122324159,
545
- "grad_norm": 5.940834045410156,
546
- "learning_rate": 5.208333333333334e-05,
547
- "loss": 2.491,
548
- "step": 77
549
- },
550
- {
551
- "epoch": 0.47706422018348627,
552
- "grad_norm": 9.047613143920898,
553
- "learning_rate": 5e-05,
554
- "loss": 2.649,
555
- "step": 78
556
- },
557
- {
558
- "epoch": 0.4831804281345566,
559
- "grad_norm": 8.733380317687988,
560
- "learning_rate": 4.791666666666667e-05,
561
- "loss": 2.8966,
562
- "step": 79
563
- },
564
- {
565
- "epoch": 0.4892966360856269,
566
- "grad_norm": 8.215818405151367,
567
- "learning_rate": 4.5833333333333334e-05,
568
- "loss": 2.5587,
569
- "step": 80
570
- },
571
- {
572
- "epoch": 0.4954128440366973,
573
- "grad_norm": 6.593921661376953,
574
- "learning_rate": 4.375e-05,
575
- "loss": 2.1509,
576
- "step": 81
577
- },
578
- {
579
- "epoch": 0.5015290519877675,
580
- "grad_norm": 7.0422563552856445,
581
- "learning_rate": 4.166666666666667e-05,
582
- "loss": 2.6517,
583
- "step": 82
584
- },
585
- {
586
- "epoch": 0.5076452599388379,
587
- "grad_norm": 6.228955268859863,
588
- "learning_rate": 3.958333333333333e-05,
589
- "loss": 1.8935,
590
- "step": 83
591
- },
592
- {
593
- "epoch": 0.5137614678899083,
594
- "grad_norm": 5.051086902618408,
595
- "learning_rate": 3.7500000000000003e-05,
596
- "loss": 1.1341,
597
- "step": 84
598
- },
599
- {
600
- "epoch": 0.5198776758409785,
601
- "grad_norm": 6.446547985076904,
602
- "learning_rate": 3.541666666666667e-05,
603
- "loss": 2.4077,
604
- "step": 85
605
- },
606
- {
607
- "epoch": 0.5259938837920489,
608
- "grad_norm": 8.105069160461426,
609
- "learning_rate": 3.3333333333333335e-05,
610
- "loss": 1.3238,
611
- "step": 86
612
- },
613
- {
614
- "epoch": 0.5321100917431193,
615
- "grad_norm": 7.07869291305542,
616
- "learning_rate": 3.125e-05,
617
- "loss": 1.8556,
618
- "step": 87
619
- },
620
- {
621
- "epoch": 0.5382262996941896,
622
- "grad_norm": 7.414394378662109,
623
- "learning_rate": 2.916666666666667e-05,
624
- "loss": 2.7577,
625
- "step": 88
626
- },
627
- {
628
- "epoch": 0.5443425076452599,
629
- "grad_norm": 3.7846713066101074,
630
- "learning_rate": 2.7083333333333332e-05,
631
- "loss": 0.9188,
632
- "step": 89
633
- },
634
- {
635
- "epoch": 0.5504587155963303,
636
- "grad_norm": 6.049407482147217,
637
- "learning_rate": 2.5e-05,
638
- "loss": 1.6882,
639
- "step": 90
640
- },
641
- {
642
- "epoch": 0.5565749235474006,
643
- "grad_norm": 6.262319564819336,
644
- "learning_rate": 2.2916666666666667e-05,
645
- "loss": 2.7452,
646
- "step": 91
647
- },
648
- {
649
- "epoch": 0.5626911314984709,
650
- "grad_norm": 6.638827800750732,
651
- "learning_rate": 2.0833333333333336e-05,
652
- "loss": 1.9348,
653
- "step": 92
654
- },
655
- {
656
- "epoch": 0.5688073394495413,
657
- "grad_norm": 9.3283052444458,
658
- "learning_rate": 1.8750000000000002e-05,
659
- "loss": 3.2134,
660
- "step": 93
661
- },
662
- {
663
- "epoch": 0.5749235474006116,
664
- "grad_norm": 5.360898017883301,
665
- "learning_rate": 1.6666666666666667e-05,
666
- "loss": 2.019,
667
- "step": 94
668
- },
669
- {
670
- "epoch": 0.581039755351682,
671
- "grad_norm": 8.911893844604492,
672
- "learning_rate": 1.4583333333333335e-05,
673
- "loss": 3.1926,
674
- "step": 95
675
- },
676
- {
677
- "epoch": 0.5871559633027523,
678
- "grad_norm": 7.837462425231934,
679
- "learning_rate": 1.25e-05,
680
- "loss": 2.5144,
681
- "step": 96
682
- },
683
- {
684
- "epoch": 0.5932721712538226,
685
- "grad_norm": 5.172741889953613,
686
- "learning_rate": 1.0416666666666668e-05,
687
- "loss": 1.7045,
688
- "step": 97
689
- },
690
- {
691
- "epoch": 0.599388379204893,
692
- "grad_norm": 7.193814277648926,
693
- "learning_rate": 8.333333333333334e-06,
694
- "loss": 2.8239,
695
- "step": 98
696
- },
697
- {
698
- "epoch": 0.6055045871559633,
699
- "grad_norm": 5.897807598114014,
700
- "learning_rate": 6.25e-06,
701
- "loss": 1.1928,
702
- "step": 99
703
- },
704
- {
705
- "epoch": 0.6116207951070336,
706
- "grad_norm": 5.558406352996826,
707
- "learning_rate": 4.166666666666667e-06,
708
- "loss": 1.8766,
709
- "step": 100
710
  }
711
  ],
712
  "logging_steps": 1,
@@ -726,7 +376,7 @@
726
  "attributes": {}
727
  }
728
  },
729
- "total_flos": 916043819384832.0,
730
  "train_batch_size": 2,
731
  "trial_name": null,
732
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.3058103975535168,
5
  "eval_steps": 1000,
6
+ "global_step": 50,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
  "epoch": 0.0061162079510703364,
13
+ "grad_norm": 14.838244438171387,
14
  "learning_rate": 0.0,
15
+ "loss": 3.3874,
16
  "step": 1
17
  },
18
  {
19
  "epoch": 0.012232415902140673,
20
+ "grad_norm": 9.148641586303711,
21
  "learning_rate": 8.613531161467861e-05,
22
+ "loss": 3.3261,
23
  "step": 2
24
  },
25
  {
26
  "epoch": 0.01834862385321101,
27
+ "grad_norm": 11.121794700622559,
28
  "learning_rate": 0.00013652123889719707,
29
+ "loss": 3.5395,
30
  "step": 3
31
  },
32
  {
33
  "epoch": 0.024464831804281346,
34
+ "grad_norm": 15.398090362548828,
35
  "learning_rate": 0.00017227062322935723,
36
+ "loss": 2.7237,
37
  "step": 4
38
  },
39
  {
40
  "epoch": 0.03058103975535168,
41
+ "grad_norm": 12.812384605407715,
42
  "learning_rate": 0.0002,
43
+ "loss": 2.5766,
44
  "step": 5
45
  },
46
  {
47
  "epoch": 0.03669724770642202,
48
+ "grad_norm": 13.770212173461914,
49
  "learning_rate": 0.0002,
50
+ "loss": 2.9812,
51
  "step": 6
52
  },
53
  {
54
  "epoch": 0.04281345565749235,
55
+ "grad_norm": 9.31240177154541,
56
  "learning_rate": 0.0001979166666666667,
57
+ "loss": 2.2007,
58
  "step": 7
59
  },
60
  {
61
  "epoch": 0.04892966360856269,
62
+ "grad_norm": 8.453168869018555,
63
  "learning_rate": 0.00019583333333333334,
64
+ "loss": 3.0672,
65
  "step": 8
66
  },
67
  {
68
  "epoch": 0.05504587155963303,
69
+ "grad_norm": 6.629086971282959,
70
  "learning_rate": 0.00019375000000000002,
71
+ "loss": 2.3837,
72
  "step": 9
73
  },
74
  {
75
  "epoch": 0.06116207951070336,
76
+ "grad_norm": 8.609308242797852,
77
  "learning_rate": 0.00019166666666666667,
78
+ "loss": 2.8275,
79
  "step": 10
80
  },
81
  {
82
  "epoch": 0.0672782874617737,
83
+ "grad_norm": 8.45747184753418,
84
  "learning_rate": 0.00018958333333333332,
85
+ "loss": 2.7901,
86
  "step": 11
87
  },
88
  {
89
  "epoch": 0.07339449541284404,
90
+ "grad_norm": 7.778749942779541,
91
  "learning_rate": 0.0001875,
92
+ "loss": 2.1263,
93
  "step": 12
94
  },
95
  {
96
  "epoch": 0.07951070336391437,
97
+ "grad_norm": 9.23363208770752,
98
  "learning_rate": 0.00018541666666666668,
99
+ "loss": 2.7385,
100
  "step": 13
101
  },
102
  {
103
  "epoch": 0.0856269113149847,
104
+ "grad_norm": 10.394725799560547,
105
  "learning_rate": 0.00018333333333333334,
106
+ "loss": 1.9376,
107
  "step": 14
108
  },
109
  {
110
  "epoch": 0.09174311926605505,
111
+ "grad_norm": 8.084063529968262,
112
  "learning_rate": 0.00018125000000000001,
113
+ "loss": 2.5122,
114
  "step": 15
115
  },
116
  {
117
  "epoch": 0.09785932721712538,
118
+ "grad_norm": 7.217422008514404,
119
  "learning_rate": 0.0001791666666666667,
120
+ "loss": 1.8823,
121
  "step": 16
122
  },
123
  {
124
  "epoch": 0.10397553516819572,
125
+ "grad_norm": 10.879976272583008,
126
  "learning_rate": 0.00017708333333333335,
127
+ "loss": 2.3302,
128
  "step": 17
129
  },
130
  {
131
  "epoch": 0.11009174311926606,
132
+ "grad_norm": 9.06281566619873,
133
  "learning_rate": 0.000175,
134
+ "loss": 2.0973,
135
  "step": 18
136
  },
137
  {
138
  "epoch": 0.1162079510703364,
139
+ "grad_norm": 9.083320617675781,
140
  "learning_rate": 0.00017291666666666668,
141
+ "loss": 2.5653,
142
  "step": 19
143
  },
144
  {
145
  "epoch": 0.12232415902140673,
146
+ "grad_norm": 12.028092384338379,
147
  "learning_rate": 0.00017083333333333333,
148
+ "loss": 2.1673,
149
  "step": 20
150
  },
151
  {
152
  "epoch": 0.12844036697247707,
153
+ "grad_norm": 8.217774391174316,
154
  "learning_rate": 0.00016875,
155
+ "loss": 2.9435,
156
  "step": 21
157
  },
158
  {
159
  "epoch": 0.1345565749235474,
160
+ "grad_norm": 7.708691596984863,
161
  "learning_rate": 0.0001666666666666667,
162
+ "loss": 2.5439,
163
  "step": 22
164
  },
165
  {
166
  "epoch": 0.14067278287461774,
167
+ "grad_norm": 9.682010650634766,
168
  "learning_rate": 0.00016458333333333334,
169
+ "loss": 2.5956,
170
  "step": 23
171
  },
172
  {
173
  "epoch": 0.14678899082568808,
174
+ "grad_norm": 8.222599029541016,
175
  "learning_rate": 0.00016250000000000002,
176
+ "loss": 1.9396,
177
  "step": 24
178
  },
179
  {
180
  "epoch": 0.1529051987767584,
181
+ "grad_norm": 5.596776008605957,
182
  "learning_rate": 0.00016041666666666667,
183
+ "loss": 1.6316,
184
  "step": 25
185
  },
186
  {
187
  "epoch": 0.15902140672782875,
188
+ "grad_norm": 7.1853766441345215,
189
  "learning_rate": 0.00015833333333333332,
190
+ "loss": 2.2344,
191
  "step": 26
192
  },
193
  {
194
  "epoch": 0.1651376146788991,
195
+ "grad_norm": 8.985827445983887,
196
  "learning_rate": 0.00015625,
197
+ "loss": 1.8781,
198
  "step": 27
199
  },
200
  {
201
  "epoch": 0.1712538226299694,
202
+ "grad_norm": 7.93477201461792,
203
  "learning_rate": 0.00015416666666666668,
204
+ "loss": 2.6036,
205
  "step": 28
206
  },
207
  {
208
  "epoch": 0.17737003058103976,
209
+ "grad_norm": 6.477381229400635,
210
  "learning_rate": 0.00015208333333333333,
211
+ "loss": 2.4767,
212
  "step": 29
213
  },
214
  {
215
  "epoch": 0.1834862385321101,
216
+ "grad_norm": 6.518289566040039,
217
  "learning_rate": 0.00015000000000000001,
218
+ "loss": 2.4941,
219
  "step": 30
220
  },
221
  {
222
  "epoch": 0.18960244648318042,
223
+ "grad_norm": 5.40209436416626,
224
  "learning_rate": 0.0001479166666666667,
225
+ "loss": 0.7781,
226
  "step": 31
227
  },
228
  {
229
  "epoch": 0.19571865443425077,
230
+ "grad_norm": 10.794727325439453,
231
  "learning_rate": 0.00014583333333333335,
232
+ "loss": 1.9824,
233
  "step": 32
234
  },
235
  {
236
  "epoch": 0.2018348623853211,
237
+ "grad_norm": 7.486544609069824,
238
  "learning_rate": 0.00014375,
239
+ "loss": 2.679,
240
  "step": 33
241
  },
242
  {
243
  "epoch": 0.20795107033639143,
244
+ "grad_norm": 6.3984832763671875,
245
  "learning_rate": 0.00014166666666666668,
246
+ "loss": 1.1488,
247
  "step": 34
248
  },
249
  {
250
  "epoch": 0.21406727828746178,
251
+ "grad_norm": 4.752143859863281,
252
  "learning_rate": 0.00013958333333333333,
253
+ "loss": 0.2673,
254
  "step": 35
255
  },
256
  {
257
  "epoch": 0.22018348623853212,
258
+ "grad_norm": 7.158022403717041,
259
  "learning_rate": 0.0001375,
260
+ "loss": 2.448,
261
  "step": 36
262
  },
263
  {
264
  "epoch": 0.22629969418960244,
265
+ "grad_norm": 8.356815338134766,
266
  "learning_rate": 0.0001354166666666667,
267
+ "loss": 2.293,
268
  "step": 37
269
  },
270
  {
271
  "epoch": 0.2324159021406728,
272
+ "grad_norm": 6.427772521972656,
273
  "learning_rate": 0.00013333333333333334,
274
+ "loss": 2.0871,
275
  "step": 38
276
  },
277
  {
278
  "epoch": 0.23853211009174313,
279
+ "grad_norm": 8.426436424255371,
280
  "learning_rate": 0.00013125000000000002,
281
+ "loss": 2.6529,
282
  "step": 39
283
  },
284
  {
285
  "epoch": 0.24464831804281345,
286
+ "grad_norm": 6.148336887359619,
287
  "learning_rate": 0.00012916666666666667,
288
+ "loss": 1.0728,
289
  "step": 40
290
  },
291
  {
292
  "epoch": 0.25076452599388377,
293
+ "grad_norm": 7.108105182647705,
294
  "learning_rate": 0.00012708333333333332,
295
+ "loss": 2.3828,
296
  "step": 41
297
  },
298
  {
299
  "epoch": 0.25688073394495414,
300
+ "grad_norm": 7.101551055908203,
301
  "learning_rate": 0.000125,
302
+ "loss": 1.5256,
303
  "step": 42
304
  },
305
  {
306
  "epoch": 0.26299694189602446,
307
+ "grad_norm": 5.024567127227783,
308
  "learning_rate": 0.00012291666666666668,
309
+ "loss": 1.165,
310
  "step": 43
311
  },
312
  {
313
  "epoch": 0.2691131498470948,
314
+ "grad_norm": 5.79965877532959,
315
  "learning_rate": 0.00012083333333333333,
316
+ "loss": 2.6776,
317
  "step": 44
318
  },
319
  {
320
  "epoch": 0.27522935779816515,
321
+ "grad_norm": 14.309733390808105,
322
  "learning_rate": 0.00011875,
323
+ "loss": 2.7559,
324
  "step": 45
325
  },
326
  {
327
  "epoch": 0.28134556574923547,
328
+ "grad_norm": 10.46374797821045,
329
  "learning_rate": 0.00011666666666666668,
330
+ "loss": 2.9232,
331
  "step": 46
332
  },
333
  {
334
  "epoch": 0.2874617737003058,
335
+ "grad_norm": 3.6996495723724365,
336
  "learning_rate": 0.00011458333333333333,
337
+ "loss": 0.654,
338
  "step": 47
339
  },
340
  {
341
  "epoch": 0.29357798165137616,
342
+ "grad_norm": 5.34403657913208,
343
  "learning_rate": 0.00011250000000000001,
344
+ "loss": 1.4462,
345
  "step": 48
346
  },
347
  {
348
  "epoch": 0.2996941896024465,
349
+ "grad_norm": 5.660646438598633,
350
  "learning_rate": 0.00011041666666666668,
351
+ "loss": 2.1049,
352
  "step": 49
353
  },
354
  {
355
  "epoch": 0.3058103975535168,
356
+ "grad_norm": 5.277816295623779,
357
  "learning_rate": 0.00010833333333333333,
358
+ "loss": 1.859,
359
  "step": 50
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
360
  }
361
  ],
362
  "logging_steps": 1,
 
376
  "attributes": {}
377
  }
378
  },
379
+ "total_flos": 537183016976384.0,
380
  "train_batch_size": 2,
381
  "trial_name": null,
382
  "trial_params": null
last-checkpoint/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:809875f49e6e3aacc41f05e2ca0a879aad6fe6eac387fed6ffb67b4bf473a935
3
  size 6904
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:700e2ffca061353ef9e5698b2619b2dcba0c46609c85e640fbe8ae9cd993bfaa
3
  size 6904