mikhail-panzo commited on
Commit
dade094
1 Parent(s): eb8ce83

Training in progress, step 500, checkpoint

Browse files
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e0b208bca8c38b9a486fdd9848f4c1f128bf3a9e0dd7c14795016400d7b156f9
3
  size 577789320
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:eed2c86bc2c40a1659071d1ab121cc1614d73dba8e8d412c17f25aa20274aa3b
3
  size 577789320
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:cac6a52c28a4ed955005016fab85cda9f346342c5c6edaf668270626ccece527
3
  size 1155772233
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:42e92a45af5353c492dbd93e2c4132cb07d4381b943c66b0c7fc1620231e6a8f
3
  size 1155772233
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5effaff3153159d29c8fd9780ecce06ed2dc4f38caf2bd0d61af35ad7d99b03a
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:22229bc8272370caff8e1f2fa838a639867ecbcd2cf7b0c1722f97dc0bc4d3f7
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9becdbdb0c73597ccfbdbc6b4341353e796af8282a1a374bd120ee6357f11761
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2a1a187666ea0e44f9d015f844e1601f5b4c6844588e1b362a3c9b6a7527a74f
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,714 +1,90 @@
1
  {
2
- "best_metric": 0.4142945408821106,
3
- "best_model_checkpoint": "mikhail_panzo/fil_b64_le4_s8000/checkpoint-2500",
4
- "epoch": 200.0,
5
  "eval_steps": 500,
6
- "global_step": 4500,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
  "epoch": 2.2222222222222223,
13
- "grad_norm": 3.1291983127593994,
14
  "learning_rate": 2.5e-06,
15
- "loss": 0.7845,
16
  "step": 50
17
  },
18
  {
19
  "epoch": 4.444444444444445,
20
- "grad_norm": 1.4106616973876953,
21
  "learning_rate": 5e-06,
22
- "loss": 0.7033,
23
  "step": 100
24
  },
25
  {
26
  "epoch": 6.666666666666667,
27
- "grad_norm": 3.4416260719299316,
28
  "learning_rate": 7.5e-06,
29
- "loss": 0.6535,
30
  "step": 150
31
  },
32
  {
33
  "epoch": 8.88888888888889,
34
- "grad_norm": 1.7668957710266113,
35
- "learning_rate": 1e-05,
36
- "loss": 0.5726,
37
  "step": 200
38
  },
39
  {
40
  "epoch": 11.11111111111111,
41
- "grad_norm": 1.3341814279556274,
42
- "learning_rate": 1.25e-05,
43
- "loss": 0.5312,
44
  "step": 250
45
  },
46
  {
47
  "epoch": 13.333333333333334,
48
- "grad_norm": 1.4352439641952515,
49
- "learning_rate": 1.5e-05,
50
- "loss": 0.5094,
51
  "step": 300
52
  },
53
  {
54
  "epoch": 15.555555555555555,
55
- "grad_norm": 1.0031296014785767,
56
- "learning_rate": 1.75e-05,
57
- "loss": 0.495,
58
  "step": 350
59
  },
60
  {
61
  "epoch": 17.77777777777778,
62
- "grad_norm": 3.518950939178467,
63
- "learning_rate": 2e-05,
64
- "loss": 0.489,
65
  "step": 400
66
  },
67
  {
68
  "epoch": 20.0,
69
- "grad_norm": 2.1400034427642822,
70
- "learning_rate": 2.25e-05,
71
- "loss": 0.4816,
72
  "step": 450
73
  },
74
  {
75
  "epoch": 22.22222222222222,
76
- "grad_norm": 1.7150920629501343,
77
- "learning_rate": 2.5e-05,
78
- "loss": 0.4725,
79
  "step": 500
80
  },
81
  {
82
  "epoch": 22.22222222222222,
83
- "eval_loss": 0.4371508061885834,
84
- "eval_runtime": 8.219,
85
- "eval_samples_per_second": 19.345,
86
- "eval_steps_per_second": 2.433,
87
  "step": 500
88
- },
89
- {
90
- "epoch": 24.444444444444443,
91
- "grad_norm": 1.6130620241165161,
92
- "learning_rate": 2.7500000000000004e-05,
93
- "loss": 0.4607,
94
- "step": 550
95
- },
96
- {
97
- "epoch": 26.666666666666668,
98
- "grad_norm": 2.737618923187256,
99
- "learning_rate": 3e-05,
100
- "loss": 0.4634,
101
- "step": 600
102
- },
103
- {
104
- "epoch": 28.88888888888889,
105
- "grad_norm": 3.0077686309814453,
106
- "learning_rate": 3.2500000000000004e-05,
107
- "loss": 0.4621,
108
- "step": 650
109
- },
110
- {
111
- "epoch": 31.11111111111111,
112
- "grad_norm": 1.4074121713638306,
113
- "learning_rate": 3.5e-05,
114
- "loss": 0.4611,
115
- "step": 700
116
- },
117
- {
118
- "epoch": 33.333333333333336,
119
- "grad_norm": 2.665407657623291,
120
- "learning_rate": 3.7500000000000003e-05,
121
- "loss": 0.4557,
122
- "step": 750
123
- },
124
- {
125
- "epoch": 35.55555555555556,
126
- "grad_norm": 2.857210874557495,
127
- "learning_rate": 4e-05,
128
- "loss": 0.4493,
129
- "step": 800
130
- },
131
- {
132
- "epoch": 37.77777777777778,
133
- "grad_norm": 1.7210990190505981,
134
- "learning_rate": 4.25e-05,
135
- "loss": 0.4489,
136
- "step": 850
137
- },
138
- {
139
- "epoch": 40.0,
140
- "grad_norm": 1.4690616130828857,
141
- "learning_rate": 4.5e-05,
142
- "loss": 0.4494,
143
- "step": 900
144
- },
145
- {
146
- "epoch": 42.22222222222222,
147
- "grad_norm": 1.6961876153945923,
148
- "learning_rate": 4.75e-05,
149
- "loss": 0.4451,
150
- "step": 950
151
- },
152
- {
153
- "epoch": 44.44444444444444,
154
- "grad_norm": 1.8849211931228638,
155
- "learning_rate": 5e-05,
156
- "loss": 0.4415,
157
- "step": 1000
158
- },
159
- {
160
- "epoch": 44.44444444444444,
161
- "eval_loss": 0.4203202724456787,
162
- "eval_runtime": 8.7725,
163
- "eval_samples_per_second": 18.125,
164
- "eval_steps_per_second": 2.28,
165
- "step": 1000
166
- },
167
- {
168
- "epoch": 46.666666666666664,
169
- "grad_norm": 4.348108768463135,
170
- "learning_rate": 5.25e-05,
171
- "loss": 0.4444,
172
- "step": 1050
173
- },
174
- {
175
- "epoch": 48.888888888888886,
176
- "grad_norm": 2.2666618824005127,
177
- "learning_rate": 5.500000000000001e-05,
178
- "loss": 0.436,
179
- "step": 1100
180
- },
181
- {
182
- "epoch": 51.111111111111114,
183
- "grad_norm": 2.367915630340576,
184
- "learning_rate": 5.7499999999999995e-05,
185
- "loss": 0.4358,
186
- "step": 1150
187
- },
188
- {
189
- "epoch": 53.333333333333336,
190
- "grad_norm": 1.8919609785079956,
191
- "learning_rate": 6e-05,
192
- "loss": 0.432,
193
- "step": 1200
194
- },
195
- {
196
- "epoch": 55.55555555555556,
197
- "grad_norm": 2.736358642578125,
198
- "learning_rate": 6.25e-05,
199
- "loss": 0.4373,
200
- "step": 1250
201
- },
202
- {
203
- "epoch": 57.77777777777778,
204
- "grad_norm": 2.9132068157196045,
205
- "learning_rate": 6.500000000000001e-05,
206
- "loss": 0.4317,
207
- "step": 1300
208
- },
209
- {
210
- "epoch": 60.0,
211
- "grad_norm": 1.5804557800292969,
212
- "learning_rate": 6.750000000000001e-05,
213
- "loss": 0.4288,
214
- "step": 1350
215
- },
216
- {
217
- "epoch": 62.22222222222222,
218
- "grad_norm": 2.7998554706573486,
219
- "learning_rate": 7e-05,
220
- "loss": 0.4291,
221
- "step": 1400
222
- },
223
- {
224
- "epoch": 64.44444444444444,
225
- "grad_norm": 1.1768637895584106,
226
- "learning_rate": 7.25e-05,
227
- "loss": 0.4183,
228
- "step": 1450
229
- },
230
- {
231
- "epoch": 66.66666666666667,
232
- "grad_norm": 1.888795018196106,
233
- "learning_rate": 7.500000000000001e-05,
234
- "loss": 0.423,
235
- "step": 1500
236
- },
237
- {
238
- "epoch": 66.66666666666667,
239
- "eval_loss": 0.4168904721736908,
240
- "eval_runtime": 8.2236,
241
- "eval_samples_per_second": 19.335,
242
- "eval_steps_per_second": 2.432,
243
- "step": 1500
244
- },
245
- {
246
- "epoch": 68.88888888888889,
247
- "grad_norm": 1.5093848705291748,
248
- "learning_rate": 7.75e-05,
249
- "loss": 0.4214,
250
- "step": 1550
251
- },
252
- {
253
- "epoch": 71.11111111111111,
254
- "grad_norm": 3.0897819995880127,
255
- "learning_rate": 8e-05,
256
- "loss": 0.4217,
257
- "step": 1600
258
- },
259
- {
260
- "epoch": 73.33333333333333,
261
- "grad_norm": 4.435822486877441,
262
- "learning_rate": 8.25e-05,
263
- "loss": 0.4115,
264
- "step": 1650
265
- },
266
- {
267
- "epoch": 75.55555555555556,
268
- "grad_norm": 1.9570446014404297,
269
- "learning_rate": 8.5e-05,
270
- "loss": 0.414,
271
- "step": 1700
272
- },
273
- {
274
- "epoch": 77.77777777777777,
275
- "grad_norm": 2.8186404705047607,
276
- "learning_rate": 8.75e-05,
277
- "loss": 0.418,
278
- "step": 1750
279
- },
280
- {
281
- "epoch": 80.0,
282
- "grad_norm": 5.278728485107422,
283
- "learning_rate": 9e-05,
284
- "loss": 0.4128,
285
- "step": 1800
286
- },
287
- {
288
- "epoch": 82.22222222222223,
289
- "grad_norm": 2.285869598388672,
290
- "learning_rate": 9.250000000000001e-05,
291
- "loss": 0.4144,
292
- "step": 1850
293
- },
294
- {
295
- "epoch": 84.44444444444444,
296
- "grad_norm": 2.994182586669922,
297
- "learning_rate": 9.5e-05,
298
- "loss": 0.4105,
299
- "step": 1900
300
- },
301
- {
302
- "epoch": 86.66666666666667,
303
- "grad_norm": 2.9983792304992676,
304
- "learning_rate": 9.75e-05,
305
- "loss": 0.414,
306
- "step": 1950
307
- },
308
- {
309
- "epoch": 88.88888888888889,
310
- "grad_norm": 3.550610303878784,
311
- "learning_rate": 0.0001,
312
- "loss": 0.4108,
313
- "step": 2000
314
- },
315
- {
316
- "epoch": 88.88888888888889,
317
- "eval_loss": 0.4182928204536438,
318
- "eval_runtime": 7.7764,
319
- "eval_samples_per_second": 20.446,
320
- "eval_steps_per_second": 2.572,
321
- "step": 2000
322
- },
323
- {
324
- "epoch": 91.11111111111111,
325
- "grad_norm": 2.4401373863220215,
326
- "learning_rate": 9.916666666666667e-05,
327
- "loss": 0.4159,
328
- "step": 2050
329
- },
330
- {
331
- "epoch": 93.33333333333333,
332
- "grad_norm": 4.816738128662109,
333
- "learning_rate": 9.835e-05,
334
- "loss": 0.4109,
335
- "step": 2100
336
- },
337
- {
338
- "epoch": 95.55555555555556,
339
- "grad_norm": 3.018982410430908,
340
- "learning_rate": 9.751666666666666e-05,
341
- "loss": 0.4072,
342
- "step": 2150
343
- },
344
- {
345
- "epoch": 97.77777777777777,
346
- "grad_norm": 1.719527006149292,
347
- "learning_rate": 9.668333333333334e-05,
348
- "loss": 0.4042,
349
- "step": 2200
350
- },
351
- {
352
- "epoch": 100.0,
353
- "grad_norm": 1.9012302160263062,
354
- "learning_rate": 9.585000000000001e-05,
355
- "loss": 0.4023,
356
- "step": 2250
357
- },
358
- {
359
- "epoch": 102.22222222222223,
360
- "grad_norm": 3.062488317489624,
361
- "learning_rate": 9.501666666666668e-05,
362
- "loss": 0.406,
363
- "step": 2300
364
- },
365
- {
366
- "epoch": 104.44444444444444,
367
- "grad_norm": 2.6211459636688232,
368
- "learning_rate": 9.418333333333334e-05,
369
- "loss": 0.405,
370
- "step": 2350
371
- },
372
- {
373
- "epoch": 106.66666666666667,
374
- "grad_norm": 1.7554346323013306,
375
- "learning_rate": 9.335e-05,
376
- "loss": 0.4052,
377
- "step": 2400
378
- },
379
- {
380
- "epoch": 108.88888888888889,
381
- "grad_norm": 1.7569692134857178,
382
- "learning_rate": 9.251666666666667e-05,
383
- "loss": 0.3979,
384
- "step": 2450
385
- },
386
- {
387
- "epoch": 111.11111111111111,
388
- "grad_norm": 0.9594977498054504,
389
- "learning_rate": 9.168333333333333e-05,
390
- "loss": 0.396,
391
- "step": 2500
392
- },
393
- {
394
- "epoch": 111.11111111111111,
395
- "eval_loss": 0.4142945408821106,
396
- "eval_runtime": 8.1333,
397
- "eval_samples_per_second": 19.549,
398
- "eval_steps_per_second": 2.459,
399
- "step": 2500
400
- },
401
- {
402
- "epoch": 113.33333333333333,
403
- "grad_norm": 2.79782772064209,
404
- "learning_rate": 9.085e-05,
405
- "loss": 0.3945,
406
- "step": 2550
407
- },
408
- {
409
- "epoch": 115.55555555555556,
410
- "grad_norm": 2.9776482582092285,
411
- "learning_rate": 9.001666666666667e-05,
412
- "loss": 0.3901,
413
- "step": 2600
414
- },
415
- {
416
- "epoch": 117.77777777777777,
417
- "grad_norm": 1.6582765579223633,
418
- "learning_rate": 8.918333333333334e-05,
419
- "loss": 0.3897,
420
- "step": 2650
421
- },
422
- {
423
- "epoch": 120.0,
424
- "grad_norm": 2.3238115310668945,
425
- "learning_rate": 8.834999999999999e-05,
426
- "loss": 0.3946,
427
- "step": 2700
428
- },
429
- {
430
- "epoch": 122.22222222222223,
431
- "grad_norm": 1.783127784729004,
432
- "learning_rate": 8.751666666666668e-05,
433
- "loss": 0.3956,
434
- "step": 2750
435
- },
436
- {
437
- "epoch": 124.44444444444444,
438
- "grad_norm": 1.8057986497879028,
439
- "learning_rate": 8.668333333333334e-05,
440
- "loss": 0.3884,
441
- "step": 2800
442
- },
443
- {
444
- "epoch": 126.66666666666667,
445
- "grad_norm": 1.6317520141601562,
446
- "learning_rate": 8.585000000000001e-05,
447
- "loss": 0.3895,
448
- "step": 2850
449
- },
450
- {
451
- "epoch": 128.88888888888889,
452
- "grad_norm": 1.802009105682373,
453
- "learning_rate": 8.501666666666667e-05,
454
- "loss": 0.3944,
455
- "step": 2900
456
- },
457
- {
458
- "epoch": 131.11111111111111,
459
- "grad_norm": 2.605529308319092,
460
- "learning_rate": 8.418333333333334e-05,
461
- "loss": 0.3951,
462
- "step": 2950
463
- },
464
- {
465
- "epoch": 133.33333333333334,
466
- "grad_norm": 1.2800849676132202,
467
- "learning_rate": 8.335e-05,
468
- "loss": 0.3883,
469
- "step": 3000
470
- },
471
- {
472
- "epoch": 133.33333333333334,
473
- "eval_loss": 0.4183387756347656,
474
- "eval_runtime": 9.0098,
475
- "eval_samples_per_second": 17.647,
476
- "eval_steps_per_second": 2.22,
477
- "step": 3000
478
- },
479
- {
480
- "epoch": 135.55555555555554,
481
- "grad_norm": 1.146140456199646,
482
- "learning_rate": 8.251666666666668e-05,
483
- "loss": 0.3853,
484
- "step": 3050
485
- },
486
- {
487
- "epoch": 137.77777777777777,
488
- "grad_norm": 1.3666647672653198,
489
- "learning_rate": 8.168333333333333e-05,
490
- "loss": 0.3815,
491
- "step": 3100
492
- },
493
- {
494
- "epoch": 140.0,
495
- "grad_norm": 1.4111328125,
496
- "learning_rate": 8.085e-05,
497
- "loss": 0.3831,
498
- "step": 3150
499
- },
500
- {
501
- "epoch": 142.22222222222223,
502
- "grad_norm": 3.635448455810547,
503
- "learning_rate": 8.001666666666667e-05,
504
- "loss": 0.3838,
505
- "step": 3200
506
- },
507
- {
508
- "epoch": 144.44444444444446,
509
- "grad_norm": 1.2508800029754639,
510
- "learning_rate": 7.918333333333334e-05,
511
- "loss": 0.3805,
512
- "step": 3250
513
- },
514
- {
515
- "epoch": 146.66666666666666,
516
- "grad_norm": 1.908144235610962,
517
- "learning_rate": 7.835000000000001e-05,
518
- "loss": 0.3802,
519
- "step": 3300
520
- },
521
- {
522
- "epoch": 148.88888888888889,
523
- "grad_norm": 1.8435084819793701,
524
- "learning_rate": 7.751666666666668e-05,
525
- "loss": 0.3764,
526
- "step": 3350
527
- },
528
- {
529
- "epoch": 151.11111111111111,
530
- "grad_norm": 2.1144354343414307,
531
- "learning_rate": 7.668333333333335e-05,
532
- "loss": 0.3781,
533
- "step": 3400
534
- },
535
- {
536
- "epoch": 153.33333333333334,
537
- "grad_norm": 2.9214673042297363,
538
- "learning_rate": 7.585e-05,
539
- "loss": 0.3766,
540
- "step": 3450
541
- },
542
- {
543
- "epoch": 155.55555555555554,
544
- "grad_norm": 1.5731481313705444,
545
- "learning_rate": 7.501666666666667e-05,
546
- "loss": 0.3771,
547
- "step": 3500
548
- },
549
- {
550
- "epoch": 155.55555555555554,
551
- "eval_loss": 0.42192450165748596,
552
- "eval_runtime": 8.6123,
553
- "eval_samples_per_second": 18.462,
554
- "eval_steps_per_second": 2.322,
555
- "step": 3500
556
- },
557
- {
558
- "epoch": 157.77777777777777,
559
- "grad_norm": 1.3311264514923096,
560
- "learning_rate": 7.418333333333334e-05,
561
- "loss": 0.3807,
562
- "step": 3550
563
- },
564
- {
565
- "epoch": 160.0,
566
- "grad_norm": 1.186661720275879,
567
- "learning_rate": 7.335000000000001e-05,
568
- "loss": 0.3768,
569
- "step": 3600
570
- },
571
- {
572
- "epoch": 162.22222222222223,
573
- "grad_norm": 1.4181159734725952,
574
- "learning_rate": 7.251666666666666e-05,
575
- "loss": 0.3735,
576
- "step": 3650
577
- },
578
- {
579
- "epoch": 164.44444444444446,
580
- "grad_norm": 2.7172157764434814,
581
- "learning_rate": 7.168333333333333e-05,
582
- "loss": 0.3741,
583
- "step": 3700
584
- },
585
- {
586
- "epoch": 166.66666666666666,
587
- "grad_norm": 1.6093742847442627,
588
- "learning_rate": 7.085e-05,
589
- "loss": 0.3721,
590
- "step": 3750
591
- },
592
- {
593
- "epoch": 168.88888888888889,
594
- "grad_norm": 1.3624290227890015,
595
- "learning_rate": 7.001666666666667e-05,
596
- "loss": 0.37,
597
- "step": 3800
598
- },
599
- {
600
- "epoch": 171.11111111111111,
601
- "grad_norm": 1.287617564201355,
602
- "learning_rate": 6.918333333333334e-05,
603
- "loss": 0.3655,
604
- "step": 3850
605
- },
606
- {
607
- "epoch": 173.33333333333334,
608
- "grad_norm": 1.69022536277771,
609
- "learning_rate": 6.835000000000001e-05,
610
- "loss": 0.37,
611
- "step": 3900
612
- },
613
- {
614
- "epoch": 175.55555555555554,
615
- "grad_norm": 2.1261706352233887,
616
- "learning_rate": 6.751666666666668e-05,
617
- "loss": 0.3736,
618
- "step": 3950
619
- },
620
- {
621
- "epoch": 177.77777777777777,
622
- "grad_norm": 1.6689108610153198,
623
- "learning_rate": 6.668333333333333e-05,
624
- "loss": 0.3731,
625
- "step": 4000
626
- },
627
- {
628
- "epoch": 177.77777777777777,
629
- "eval_loss": 0.4211507737636566,
630
- "eval_runtime": 8.6906,
631
- "eval_samples_per_second": 18.296,
632
- "eval_steps_per_second": 2.301,
633
- "step": 4000
634
- },
635
- {
636
- "epoch": 180.0,
637
- "grad_norm": 2.798970937728882,
638
- "learning_rate": 6.585e-05,
639
- "loss": 0.3657,
640
- "step": 4050
641
- },
642
- {
643
- "epoch": 182.22222222222223,
644
- "grad_norm": 1.2629871368408203,
645
- "learning_rate": 6.501666666666667e-05,
646
- "loss": 0.3666,
647
- "step": 4100
648
- },
649
- {
650
- "epoch": 184.44444444444446,
651
- "grad_norm": 0.970268964767456,
652
- "learning_rate": 6.418333333333334e-05,
653
- "loss": 0.3668,
654
- "step": 4150
655
- },
656
- {
657
- "epoch": 186.66666666666666,
658
- "grad_norm": 1.7865740060806274,
659
- "learning_rate": 6.335e-05,
660
- "loss": 0.364,
661
- "step": 4200
662
- },
663
- {
664
- "epoch": 188.88888888888889,
665
- "grad_norm": 0.8204932808876038,
666
- "learning_rate": 6.251666666666666e-05,
667
- "loss": 0.3647,
668
- "step": 4250
669
- },
670
- {
671
- "epoch": 191.11111111111111,
672
- "grad_norm": 0.910372257232666,
673
- "learning_rate": 6.168333333333333e-05,
674
- "loss": 0.3676,
675
- "step": 4300
676
- },
677
- {
678
- "epoch": 193.33333333333334,
679
- "grad_norm": 1.2381336688995361,
680
- "learning_rate": 6.085000000000001e-05,
681
- "loss": 0.3632,
682
- "step": 4350
683
- },
684
- {
685
- "epoch": 195.55555555555554,
686
- "grad_norm": 1.588180661201477,
687
- "learning_rate": 6.0016666666666664e-05,
688
- "loss": 0.3621,
689
- "step": 4400
690
- },
691
- {
692
- "epoch": 197.77777777777777,
693
- "grad_norm": 1.093023419380188,
694
- "learning_rate": 5.918333333333333e-05,
695
- "loss": 0.3609,
696
- "step": 4450
697
- },
698
- {
699
- "epoch": 200.0,
700
- "grad_norm": 1.071207046508789,
701
- "learning_rate": 5.835e-05,
702
- "loss": 0.362,
703
- "step": 4500
704
- },
705
- {
706
- "epoch": 200.0,
707
- "eval_loss": 0.42145419120788574,
708
- "eval_runtime": 7.8841,
709
- "eval_samples_per_second": 20.167,
710
- "eval_steps_per_second": 2.537,
711
- "step": 4500
712
  }
713
  ],
714
  "logging_steps": 50,
@@ -728,8 +104,8 @@
728
  "attributes": {}
729
  }
730
  },
731
- "total_flos": 6.180482295807811e+16,
732
- "train_batch_size": 16,
733
  "trial_name": null,
734
  "trial_params": null
735
  }
 
1
  {
2
+ "best_metric": 0.4381416440010071,
3
+ "best_model_checkpoint": "mikhail_panzo/fil_b64_le4_s8000/checkpoint-500",
4
+ "epoch": 22.22222222222222,
5
  "eval_steps": 500,
6
+ "global_step": 500,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
  "epoch": 2.2222222222222223,
13
+ "grad_norm": 1.774868130683899,
14
  "learning_rate": 2.5e-06,
15
+ "loss": 0.7871,
16
  "step": 50
17
  },
18
  {
19
  "epoch": 4.444444444444445,
20
+ "grad_norm": 4.1770920753479,
21
  "learning_rate": 5e-06,
22
+ "loss": 0.7106,
23
  "step": 100
24
  },
25
  {
26
  "epoch": 6.666666666666667,
27
+ "grad_norm": 3.3354010581970215,
28
  "learning_rate": 7.5e-06,
29
+ "loss": 0.6568,
30
  "step": 150
31
  },
32
  {
33
  "epoch": 8.88888888888889,
34
+ "grad_norm": 2.2018914222717285,
35
+ "learning_rate": 9.950000000000001e-06,
36
+ "loss": 0.577,
37
  "step": 200
38
  },
39
  {
40
  "epoch": 11.11111111111111,
41
+ "grad_norm": 1.4593122005462646,
42
+ "learning_rate": 1.2450000000000001e-05,
43
+ "loss": 0.5321,
44
  "step": 250
45
  },
46
  {
47
  "epoch": 13.333333333333334,
48
+ "grad_norm": 1.9025092124938965,
49
+ "learning_rate": 1.4950000000000001e-05,
50
+ "loss": 0.5224,
51
  "step": 300
52
  },
53
  {
54
  "epoch": 15.555555555555555,
55
+ "grad_norm": 1.1274640560150146,
56
+ "learning_rate": 1.745e-05,
57
+ "loss": 0.5033,
58
  "step": 350
59
  },
60
  {
61
  "epoch": 17.77777777777778,
62
+ "grad_norm": 1.615440011024475,
63
+ "learning_rate": 1.995e-05,
64
+ "loss": 0.4884,
65
  "step": 400
66
  },
67
  {
68
  "epoch": 20.0,
69
+ "grad_norm": 1.224423885345459,
70
+ "learning_rate": 2.245e-05,
71
+ "loss": 0.4891,
72
  "step": 450
73
  },
74
  {
75
  "epoch": 22.22222222222222,
76
+ "grad_norm": 1.3765957355499268,
77
+ "learning_rate": 2.495e-05,
78
+ "loss": 0.4811,
79
  "step": 500
80
  },
81
  {
82
  "epoch": 22.22222222222222,
83
+ "eval_loss": 0.4381416440010071,
84
+ "eval_runtime": 7.3061,
85
+ "eval_samples_per_second": 21.763,
86
+ "eval_steps_per_second": 2.737,
87
  "step": 500
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
88
  }
89
  ],
90
  "logging_steps": 50,
 
104
  "attributes": {}
105
  }
106
  },
107
+ "total_flos": 7257884840759520.0,
108
+ "train_batch_size": 32,
109
  "trial_name": null,
110
  "trial_params": null
111
  }
last-checkpoint/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a77b5730a7c220a064b5f4530a16997470ffd2ece6c16c7b1757d4b08f671d29
3
  size 5304
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b20fa88d77a29f6532fc31932997f0c8ed961dcd3657a7862d793575cbe78fcd
3
  size 5304