BobaZooba commited on
Commit
6bae24f
1 Parent(s): b2455e5

Training in progress, step 100, checkpoint

Browse files
last-checkpoint/README.md CHANGED
@@ -217,23 +217,4 @@ The following `bitsandbytes` quantization config was used during training:
217
  ### Framework versions
218
 
219
 
220
- - PEFT 0.6.2
221
- ## Training procedure
222
-
223
-
224
- The following `bitsandbytes` quantization config was used during training:
225
- - quant_method: bitsandbytes
226
- - load_in_8bit: False
227
- - load_in_4bit: True
228
- - llm_int8_threshold: 6.0
229
- - llm_int8_skip_modules: None
230
- - llm_int8_enable_fp32_cpu_offload: False
231
- - llm_int8_has_fp16_weight: True
232
- - bnb_4bit_quant_type: nf4
233
- - bnb_4bit_use_double_quant: True
234
- - bnb_4bit_compute_dtype: float16
235
-
236
- ### Framework versions
237
-
238
-
239
  - PEFT 0.6.2
 
217
  ### Framework versions
218
 
219
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
220
  - PEFT 0.6.2
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:02b49cafa17099fb3f799866f293f74c7421276b1b678b94cf3e64d676ebf640
3
  size 42002136
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dc6ff8066082ef557afccbd11fb614aa147c34dbb495a11a9b6571c45231a755
3
  size 42002136
last-checkpoint/global_step100/mp_rank_00_model_states.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5c9382c6920279a7fafbc8ce7da74c141bfa7a777ea6bcf1b8964804673154e6
3
+ size 8182659910
last-checkpoint/global_step100/zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:441b1f27ab6f96995daf94a031614a4425be0a30f8cf007101c6085e9a7f2024
3
+ size 251710893
last-checkpoint/latest CHANGED
@@ -1 +1 @@
1
- global_step50
 
1
+ global_step100
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:95108ce3daae0de505fcc447f4742cf96275124742d94331b4e3e1cbe5b3334d
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:21e76ce417a2453046e6a33726c8f3832834739201b50fea30214604b61d7e69
3
  size 14244
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.0012437810945273632,
5
  "eval_steps": 1000,
6
- "global_step": 50,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -307,13 +307,313 @@
307
  "learning_rate": 0.00011666666666666668,
308
  "loss": 1.3727,
309
  "step": 50
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
310
  }
311
  ],
312
  "logging_steps": 1,
313
  "max_steps": 101,
314
  "num_train_epochs": 1,
315
  "save_steps": 50,
316
- "total_flos": 3065802843488256.0,
317
  "trial_name": null,
318
  "trial_params": null
319
  }
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.0024875621890547263,
5
  "eval_steps": 1000,
6
+ "global_step": 100,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
307
  "learning_rate": 0.00011666666666666668,
308
  "loss": 1.3727,
309
  "step": 50
310
+ },
311
+ {
312
+ "epoch": 0.0,
313
+ "learning_rate": 0.00011458333333333333,
314
+ "loss": 1.7153,
315
+ "step": 51
316
+ },
317
+ {
318
+ "epoch": 0.0,
319
+ "learning_rate": 0.00011250000000000001,
320
+ "loss": 1.6515,
321
+ "step": 52
322
+ },
323
+ {
324
+ "epoch": 0.0,
325
+ "learning_rate": 0.00011041666666666668,
326
+ "loss": 1.6403,
327
+ "step": 53
328
+ },
329
+ {
330
+ "epoch": 0.0,
331
+ "learning_rate": 0.00010833333333333333,
332
+ "loss": 1.4329,
333
+ "step": 54
334
+ },
335
+ {
336
+ "epoch": 0.0,
337
+ "learning_rate": 0.00010625000000000001,
338
+ "loss": 1.6322,
339
+ "step": 55
340
+ },
341
+ {
342
+ "epoch": 0.0,
343
+ "learning_rate": 0.00010416666666666667,
344
+ "loss": 1.5179,
345
+ "step": 56
346
+ },
347
+ {
348
+ "epoch": 0.0,
349
+ "learning_rate": 0.00010208333333333333,
350
+ "loss": 1.8221,
351
+ "step": 57
352
+ },
353
+ {
354
+ "epoch": 0.0,
355
+ "learning_rate": 0.0001,
356
+ "loss": 1.486,
357
+ "step": 58
358
+ },
359
+ {
360
+ "epoch": 0.0,
361
+ "learning_rate": 9.791666666666667e-05,
362
+ "loss": 1.5899,
363
+ "step": 59
364
+ },
365
+ {
366
+ "epoch": 0.0,
367
+ "learning_rate": 9.583333333333334e-05,
368
+ "loss": 1.9237,
369
+ "step": 60
370
+ },
371
+ {
372
+ "epoch": 0.0,
373
+ "learning_rate": 9.375e-05,
374
+ "loss": 1.5147,
375
+ "step": 61
376
+ },
377
+ {
378
+ "epoch": 0.0,
379
+ "learning_rate": 9.166666666666667e-05,
380
+ "loss": 1.7256,
381
+ "step": 62
382
+ },
383
+ {
384
+ "epoch": 0.0,
385
+ "learning_rate": 8.958333333333335e-05,
386
+ "loss": 1.3188,
387
+ "step": 63
388
+ },
389
+ {
390
+ "epoch": 0.0,
391
+ "learning_rate": 8.75e-05,
392
+ "loss": 1.7062,
393
+ "step": 64
394
+ },
395
+ {
396
+ "epoch": 0.0,
397
+ "learning_rate": 8.541666666666666e-05,
398
+ "loss": 1.6038,
399
+ "step": 65
400
+ },
401
+ {
402
+ "epoch": 0.0,
403
+ "learning_rate": 8.333333333333334e-05,
404
+ "loss": 1.3076,
405
+ "step": 66
406
+ },
407
+ {
408
+ "epoch": 0.0,
409
+ "learning_rate": 8.125000000000001e-05,
410
+ "loss": 1.5869,
411
+ "step": 67
412
+ },
413
+ {
414
+ "epoch": 0.0,
415
+ "learning_rate": 7.916666666666666e-05,
416
+ "loss": 1.5563,
417
+ "step": 68
418
+ },
419
+ {
420
+ "epoch": 0.0,
421
+ "learning_rate": 7.708333333333334e-05,
422
+ "loss": 1.7162,
423
+ "step": 69
424
+ },
425
+ {
426
+ "epoch": 0.0,
427
+ "learning_rate": 7.500000000000001e-05,
428
+ "loss": 1.8046,
429
+ "step": 70
430
+ },
431
+ {
432
+ "epoch": 0.0,
433
+ "learning_rate": 7.291666666666667e-05,
434
+ "loss": 1.8195,
435
+ "step": 71
436
+ },
437
+ {
438
+ "epoch": 0.0,
439
+ "learning_rate": 7.083333333333334e-05,
440
+ "loss": 1.7427,
441
+ "step": 72
442
+ },
443
+ {
444
+ "epoch": 0.0,
445
+ "learning_rate": 6.875e-05,
446
+ "loss": 1.164,
447
+ "step": 73
448
+ },
449
+ {
450
+ "epoch": 0.0,
451
+ "learning_rate": 6.666666666666667e-05,
452
+ "loss": 1.6653,
453
+ "step": 74
454
+ },
455
+ {
456
+ "epoch": 0.0,
457
+ "learning_rate": 6.458333333333334e-05,
458
+ "loss": 1.6099,
459
+ "step": 75
460
+ },
461
+ {
462
+ "epoch": 0.0,
463
+ "learning_rate": 6.25e-05,
464
+ "loss": 1.6574,
465
+ "step": 76
466
+ },
467
+ {
468
+ "epoch": 0.0,
469
+ "learning_rate": 6.041666666666667e-05,
470
+ "loss": 1.6743,
471
+ "step": 77
472
+ },
473
+ {
474
+ "epoch": 0.0,
475
+ "learning_rate": 5.833333333333334e-05,
476
+ "loss": 1.5,
477
+ "step": 78
478
+ },
479
+ {
480
+ "epoch": 0.0,
481
+ "learning_rate": 5.6250000000000005e-05,
482
+ "loss": 1.8009,
483
+ "step": 79
484
+ },
485
+ {
486
+ "epoch": 0.0,
487
+ "learning_rate": 5.4166666666666664e-05,
488
+ "loss": 1.5946,
489
+ "step": 80
490
+ },
491
+ {
492
+ "epoch": 0.0,
493
+ "learning_rate": 5.208333333333334e-05,
494
+ "loss": 1.7701,
495
+ "step": 81
496
+ },
497
+ {
498
+ "epoch": 0.0,
499
+ "learning_rate": 5e-05,
500
+ "loss": 1.3302,
501
+ "step": 82
502
+ },
503
+ {
504
+ "epoch": 0.0,
505
+ "learning_rate": 4.791666666666667e-05,
506
+ "loss": 1.7082,
507
+ "step": 83
508
+ },
509
+ {
510
+ "epoch": 0.0,
511
+ "learning_rate": 4.5833333333333334e-05,
512
+ "loss": 1.3644,
513
+ "step": 84
514
+ },
515
+ {
516
+ "epoch": 0.0,
517
+ "learning_rate": 4.375e-05,
518
+ "loss": 1.1494,
519
+ "step": 85
520
+ },
521
+ {
522
+ "epoch": 0.0,
523
+ "learning_rate": 4.166666666666667e-05,
524
+ "loss": 1.7472,
525
+ "step": 86
526
+ },
527
+ {
528
+ "epoch": 0.0,
529
+ "learning_rate": 3.958333333333333e-05,
530
+ "loss": 1.4859,
531
+ "step": 87
532
+ },
533
+ {
534
+ "epoch": 0.0,
535
+ "learning_rate": 3.7500000000000003e-05,
536
+ "loss": 1.5887,
537
+ "step": 88
538
+ },
539
+ {
540
+ "epoch": 0.0,
541
+ "learning_rate": 3.541666666666667e-05,
542
+ "loss": 1.6093,
543
+ "step": 89
544
+ },
545
+ {
546
+ "epoch": 0.0,
547
+ "learning_rate": 3.3333333333333335e-05,
548
+ "loss": 1.814,
549
+ "step": 90
550
+ },
551
+ {
552
+ "epoch": 0.0,
553
+ "learning_rate": 3.125e-05,
554
+ "loss": 1.5288,
555
+ "step": 91
556
+ },
557
+ {
558
+ "epoch": 0.0,
559
+ "learning_rate": 2.916666666666667e-05,
560
+ "loss": 1.3786,
561
+ "step": 92
562
+ },
563
+ {
564
+ "epoch": 0.0,
565
+ "learning_rate": 2.7083333333333332e-05,
566
+ "loss": 1.3912,
567
+ "step": 93
568
+ },
569
+ {
570
+ "epoch": 0.0,
571
+ "learning_rate": 2.5e-05,
572
+ "loss": 1.6132,
573
+ "step": 94
574
+ },
575
+ {
576
+ "epoch": 0.0,
577
+ "learning_rate": 2.2916666666666667e-05,
578
+ "loss": 1.7836,
579
+ "step": 95
580
+ },
581
+ {
582
+ "epoch": 0.0,
583
+ "learning_rate": 2.0833333333333336e-05,
584
+ "loss": 1.5794,
585
+ "step": 96
586
+ },
587
+ {
588
+ "epoch": 0.0,
589
+ "learning_rate": 1.8750000000000002e-05,
590
+ "loss": 1.6676,
591
+ "step": 97
592
+ },
593
+ {
594
+ "epoch": 0.0,
595
+ "learning_rate": 1.6666666666666667e-05,
596
+ "loss": 1.4828,
597
+ "step": 98
598
+ },
599
+ {
600
+ "epoch": 0.0,
601
+ "learning_rate": 1.4583333333333335e-05,
602
+ "loss": 1.5134,
603
+ "step": 99
604
+ },
605
+ {
606
+ "epoch": 0.0,
607
+ "learning_rate": 1.25e-05,
608
+ "loss": 1.8423,
609
+ "step": 100
610
  }
611
  ],
612
  "logging_steps": 1,
613
  "max_steps": 101,
614
  "num_train_epochs": 1,
615
  "save_steps": 50,
616
+ "total_flos": 6150946682830848.0,
617
  "trial_name": null,
618
  "trial_params": null
619
  }