Model save

Browse files

Files changed (5) hide show

README.md +77 -0
adapter_model.safetensors +1 -1
all_results.json +8 -0
train_results.json +8 -0
trainer_state.json +526 -0

README.md ADDED Viewed

	@@ -0,0 +1,77 @@

+---
+license: apache-2.0
+library_name: peft
+tags:
+- trl
+- dpo
+- generated_from_trainer
+base_model: mistralai/Mistral-7B-v0.1
+model-index:
+- name: zephyr-7b-dpo-qlora
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# zephyr-7b-dpo-qlora
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.5735
+- Rewards/chosen: -0.6770
+- Rewards/rejected: -1.1070
+- Rewards/accuracies: 0.6940
+- Rewards/margins: 0.4300
+- Logps/rejected: -351.8942
+- Logps/chosen: -331.1508
+- Logits/rejected: -1.4599
+- Logits/chosen: -1.7015
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 2
+- eval_batch_size: 2
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 32
+- total_eval_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.6269        | 0.32  | 100  | 0.6269          | -0.2377        | -0.4431          | 0.6820             | 0.2054          | -285.4985      | -287.2169    | -2.2566         | -2.3666       |
+| 0.6332        | 0.64  | 200  | 0.5821          | -0.5909        | -0.9588          | 0.7060             | 0.3679          | -337.0687      | -322.5442    | -1.6871         | -1.8938       |
+| 0.5648        | 0.96  | 300  | 0.5735          | -0.6770        | -1.1070          | 0.6940             | 0.4300          | -351.8942      | -331.1508    | -1.4599         | -1.7015       |
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.36.2
+- Pytorch 2.2.2+cu121
+- Datasets 2.14.6
+- Tokenizers 0.15.2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f218add99e924b421593d76eae2b8befa6912c7ea10bd6c21fc9114735b1983
 size 671150064

 version https://git-lfs.github.com/spec/v1
+oid sha256:28defe27fdc102149779b9769d25766751de171b48982e943278effb731ebb99
 size 671150064

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.6116275028922619,
+    "train_runtime": 6907.8509,
+    "train_samples": 10000,
+    "train_samples_per_second": 1.448,
+    "train_steps_per_second": 0.045
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.6116275028922619,
+    "train_runtime": 6907.8509,
+    "train_samples": 10000,
+    "train_samples_per_second": 1.448,
+    "train_steps_per_second": 0.045
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,526 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9984,
+  "eval_steps": 100,
+  "global_step": 312,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.5625e-07,
+      "logits/chosen": -2.7731900215148926,
+      "logits/rejected": -2.6362287998199463,
+      "logps/chosen": -356.1260070800781,
+      "logps/rejected": -311.3892822265625,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.5625e-06,
+      "logits/chosen": -2.3915464878082275,
+      "logits/rejected": -2.3424172401428223,
+      "logps/chosen": -243.08827209472656,
+      "logps/rejected": -240.88124084472656,
+      "loss": 0.6927,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.004824994597584009,
+      "rewards/margins": 0.001562346238642931,
+      "rewards/rejected": 0.003262649057433009,
+      "step": 10
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 3.125e-06,
+      "logits/chosen": -2.6855998039245605,
+      "logits/rejected": -2.503112316131592,
+      "logps/chosen": -276.1568908691406,
+      "logps/rejected": -245.57150268554688,
+      "loss": 0.687,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.04376252368092537,
+      "rewards/margins": 0.011996113695204258,
+      "rewards/rejected": 0.03176640719175339,
+      "step": 20
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.6875000000000004e-06,
+      "logits/chosen": -2.5015687942504883,
+      "logits/rejected": -2.448686122894287,
+      "logps/chosen": -244.99642944335938,
+      "logps/rejected": -249.10916137695312,
+      "loss": 0.6832,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.05081823468208313,
+      "rewards/margins": 0.018069546669721603,
+      "rewards/rejected": 0.032748688012361526,
+      "step": 30
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.989935734988098e-06,
+      "logits/chosen": -2.5158021450042725,
+      "logits/rejected": -2.337573289871216,
+      "logps/chosen": -272.7821350097656,
+      "logps/rejected": -227.36007690429688,
+      "loss": 0.6668,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": 0.0395994558930397,
+      "rewards/margins": 0.04740050435066223,
+      "rewards/rejected": -0.00780104985460639,
+      "step": 40
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.949188496058089e-06,
+      "logits/chosen": -2.430145502090454,
+      "logits/rejected": -2.4263150691986084,
+      "logps/chosen": -249.273681640625,
+      "logps/rejected": -266.5956726074219,
+      "loss": 0.6528,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.02035255916416645,
+      "rewards/margins": 0.059511054307222366,
+      "rewards/rejected": -0.03915848955512047,
+      "step": 50
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.8776412907378845e-06,
+      "logits/chosen": -2.4893181324005127,
+      "logits/rejected": -2.418604612350464,
+      "logps/chosen": -301.8047790527344,
+      "logps/rejected": -252.42892456054688,
+      "loss": 0.6591,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.06781601160764694,
+      "rewards/margins": 0.07723621279001236,
+      "rewards/rejected": -0.1450522094964981,
+      "step": 60
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.7761938666470405e-06,
+      "logits/chosen": -2.4578957557678223,
+      "logits/rejected": -2.4078097343444824,
+      "logps/chosen": -259.1146545410156,
+      "logps/rejected": -255.2762908935547,
+      "loss": 0.6412,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.09445185959339142,
+      "rewards/margins": 0.15250881016254425,
+      "rewards/rejected": -0.24696068465709686,
+      "step": 70
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.646121984004666e-06,
+      "logits/chosen": -2.5219717025756836,
+      "logits/rejected": -2.3697924613952637,
+      "logps/chosen": -289.8721618652344,
+      "logps/rejected": -306.9769287109375,
+      "loss": 0.6357,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.21299012005329132,
+      "rewards/margins": 0.16702046990394592,
+      "rewards/rejected": -0.38001060485839844,
+      "step": 80
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.4890613722044526e-06,
+      "logits/chosen": -2.427962064743042,
+      "logits/rejected": -2.326305866241455,
+      "logps/chosen": -265.3756408691406,
+      "logps/rejected": -262.7252197265625,
+      "loss": 0.6272,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.16604574024677277,
+      "rewards/margins": 0.19639183580875397,
+      "rewards/rejected": -0.36243754625320435,
+      "step": 90
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.3069871595684795e-06,
+      "logits/chosen": -2.213723659515381,
+      "logits/rejected": -2.217102527618408,
+      "logps/chosen": -245.6179962158203,
+      "logps/rejected": -293.12518310546875,
+      "loss": 0.6269,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.38440248370170593,
+      "rewards/margins": 0.126637801527977,
+      "rewards/rejected": -0.5110402703285217,
+      "step": 100
+    },
+    {
+      "epoch": 0.32,
+      "eval_logits/chosen": -2.3665878772735596,
+      "eval_logits/rejected": -2.256598949432373,
+      "eval_logps/chosen": -287.2168884277344,
+      "eval_logps/rejected": -285.49847412109375,
+      "eval_loss": 0.6268974542617798,
+      "eval_rewards/accuracies": 0.6819999814033508,
+      "eval_rewards/chosen": -0.23765824735164642,
+      "eval_rewards/margins": 0.2054254114627838,
+      "eval_rewards/rejected": -0.44308364391326904,
+      "eval_runtime": 543.2957,
+      "eval_samples_per_second": 3.681,
+      "eval_steps_per_second": 0.46,
+      "step": 100
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.102189034962561e-06,
+      "logits/chosen": -2.338050603866577,
+      "logits/rejected": -2.2199347019195557,
+      "logps/chosen": -304.7019958496094,
+      "logps/rejected": -283.5575256347656,
+      "loss": 0.6232,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.18706437945365906,
+      "rewards/margins": 0.24619019031524658,
+      "rewards/rejected": -0.43325456976890564,
+      "step": 110
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.8772424536302565e-06,
+      "logits/chosen": -2.199939250946045,
+      "logits/rejected": -2.1462173461914062,
+      "logps/chosen": -280.5738525390625,
+      "logps/rejected": -272.75537109375,
+      "loss": 0.6256,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.23016035556793213,
+      "rewards/margins": 0.2529276907444,
+      "rewards/rejected": -0.48308807611465454,
+      "step": 120
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 3.634976249348867e-06,
+      "logits/chosen": -2.4285922050476074,
+      "logits/rejected": -2.252119541168213,
+      "logps/chosen": -337.8984375,
+      "logps/rejected": -329.4248962402344,
+      "loss": 0.6299,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.27586501836776733,
+      "rewards/margins": 0.285078763961792,
+      "rewards/rejected": -0.5609437823295593,
+      "step": 130
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 3.3784370602033572e-06,
+      "logits/chosen": -2.072373628616333,
+      "logits/rejected": -1.9053455591201782,
+      "logps/chosen": -251.76571655273438,
+      "logps/rejected": -285.0694885253906,
+      "loss": 0.6067,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.5010747909545898,
+      "rewards/margins": 0.26867786049842834,
+      "rewards/rejected": -0.7697526216506958,
+      "step": 140
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 3.1108510153447352e-06,
+      "logits/chosen": -2.21221661567688,
+      "logits/rejected": -2.136280059814453,
+      "logps/chosen": -338.2016296386719,
+      "logps/rejected": -331.0526428222656,
+      "loss": 0.608,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.639680027961731,
+      "rewards/margins": 0.2550516426563263,
+      "rewards/rejected": -0.8947317004203796,
+      "step": 150
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.835583164544139e-06,
+      "logits/chosen": -2.2209646701812744,
+      "logits/rejected": -2.022948980331421,
+      "logps/chosen": -377.3534851074219,
+      "logps/rejected": -344.77252197265625,
+      "loss": 0.5937,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.7194479703903198,
+      "rewards/margins": 0.39620086550712585,
+      "rewards/rejected": -1.115648865699768,
+      "step": 160
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.556095160739513e-06,
+      "logits/chosen": -2.1350314617156982,
+      "logits/rejected": -1.85476553440094,
+      "logps/chosen": -351.29638671875,
+      "logps/rejected": -354.8650817871094,
+      "loss": 0.6069,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.7903974652290344,
+      "rewards/margins": 0.24958536028862,
+      "rewards/rejected": -1.039982795715332,
+      "step": 170
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.2759017277414165e-06,
+      "logits/chosen": -2.0943400859832764,
+      "logits/rejected": -1.8893616199493408,
+      "logps/chosen": -322.147216796875,
+      "logps/rejected": -327.81304931640625,
+      "loss": 0.6252,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.6768954992294312,
+      "rewards/margins": 0.20395174622535706,
+      "rewards/rejected": -0.8808472752571106,
+      "step": 180
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.9985264605418185e-06,
+      "logits/chosen": -1.9419981241226196,
+      "logits/rejected": -1.7324016094207764,
+      "logps/chosen": -328.23760986328125,
+      "logps/rejected": -314.13922119140625,
+      "loss": 0.584,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.4452829360961914,
+      "rewards/margins": 0.4189114570617676,
+      "rewards/rejected": -0.864194393157959,
+      "step": 190
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.7274575140626318e-06,
+      "logits/chosen": -2.144902229309082,
+      "logits/rejected": -1.7156444787979126,
+      "logps/chosen": -362.327880859375,
+      "logps/rejected": -322.9747619628906,
+      "loss": 0.6332,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.4486660957336426,
+      "rewards/margins": 0.3436250388622284,
+      "rewards/rejected": -0.7922911047935486,
+      "step": 200
+    },
+    {
+      "epoch": 0.64,
+      "eval_logits/chosen": -1.893760323524475,
+      "eval_logits/rejected": -1.6871448755264282,
+      "eval_logps/chosen": -322.544189453125,
+      "eval_logps/rejected": -337.0687255859375,
+      "eval_loss": 0.5820500254631042,
+      "eval_rewards/accuracies": 0.7059999704360962,
+      "eval_rewards/chosen": -0.5909315943717957,
+      "eval_rewards/margins": 0.3678547739982605,
+      "eval_rewards/rejected": -0.9587863683700562,
+      "eval_runtime": 543.1459,
+      "eval_samples_per_second": 3.682,
+      "eval_steps_per_second": 0.46,
+      "step": 200
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.466103737583699e-06,
+      "logits/chosen": -1.8559290170669556,
+      "logits/rejected": -1.7014697790145874,
+      "logps/chosen": -324.19256591796875,
+      "logps/rejected": -352.70697021484375,
+      "loss": 0.552,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.6294658780097961,
+      "rewards/margins": 0.45733365416526794,
+      "rewards/rejected": -1.0867995023727417,
+      "step": 210
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.217751806485235e-06,
+      "logits/chosen": -1.8568174839019775,
+      "logits/rejected": -1.6362855434417725,
+      "logps/chosen": -356.0939636230469,
+      "logps/rejected": -389.1434326171875,
+      "loss": 0.5765,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.6206706762313843,
+      "rewards/margins": 0.5877247452735901,
+      "rewards/rejected": -1.2083956003189087,
+      "step": 220
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 9.855248903979505e-07,
+      "logits/chosen": -1.9677798748016357,
+      "logits/rejected": -1.8001766204833984,
+      "logps/chosen": -333.63409423828125,
+      "logps/rejected": -372.82232666015625,
+      "loss": 0.5961,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.6273213028907776,
+      "rewards/margins": 0.4957484304904938,
+      "rewards/rejected": -1.1230696439743042,
+      "step": 230
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.723433775328385e-07,
+      "logits/chosen": -1.6269299983978271,
+      "logits/rejected": -1.5314247608184814,
+      "logps/chosen": -343.7135314941406,
+      "logps/rejected": -360.920166015625,
+      "loss": 0.5733,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.6133186221122742,
+      "rewards/margins": 0.3855026662349701,
+      "rewards/rejected": -0.9988213777542114,
+      "step": 240
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 5.808881491049723e-07,
+      "logits/chosen": -1.8092960119247437,
+      "logits/rejected": -1.4363586902618408,
+      "logps/chosen": -302.46234130859375,
+      "logps/rejected": -305.09393310546875,
+      "loss": 0.5822,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.7107473611831665,
+      "rewards/margins": 0.3086285889148712,
+      "rewards/rejected": -1.0193760395050049,
+      "step": 250
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.1356686569674344e-07,
+      "logits/chosen": -2.0522053241729736,
+      "logits/rejected": -1.6467043161392212,
+      "logps/chosen": -370.14019775390625,
+      "logps/rejected": -350.79364013671875,
+      "loss": 0.5594,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.6428462266921997,
+      "rewards/margins": 0.41562938690185547,
+      "rewards/rejected": -1.0584756135940552,
+      "step": 260
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 2.7248368952908055e-07,
+      "logits/chosen": -1.736702561378479,
+      "logits/rejected": -1.5174537897109985,
+      "logps/chosen": -293.9969177246094,
+      "logps/rejected": -317.34844970703125,
+      "loss": 0.5803,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.5701481103897095,
+      "rewards/margins": 0.500605583190918,
+      "rewards/rejected": -1.0707536935806274,
+      "step": 270
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.59412823400657e-07,
+      "logits/chosen": -1.6159837245941162,
+      "logits/rejected": -1.2289941310882568,
+      "logps/chosen": -342.9421081542969,
+      "logps/rejected": -372.6164855957031,
+      "loss": 0.5578,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.7729519605636597,
+      "rewards/margins": 0.49912238121032715,
+      "rewards/rejected": -1.2720743417739868,
+      "step": 280
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.577619905828281e-08,
+      "logits/chosen": -1.502423644065857,
+      "logits/rejected": -1.456081509590149,
+      "logps/chosen": -329.8805236816406,
+      "logps/rejected": -356.34417724609375,
+      "loss": 0.5827,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.678324818611145,
+      "rewards/margins": 0.42007485032081604,
+      "rewards/rejected": -1.0983997583389282,
+      "step": 290
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.262559558016325e-08,
+      "logits/chosen": -1.6769917011260986,
+      "logits/rejected": -1.406165361404419,
+      "logps/chosen": -328.3318786621094,
+      "logps/rejected": -353.73968505859375,
+      "loss": 0.5648,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.6493935585021973,
+      "rewards/margins": 0.43068727850914,
+      "rewards/rejected": -1.0800807476043701,
+      "step": 300
+    },
+    {
+      "epoch": 0.96,
+      "eval_logits/chosen": -1.7015434503555298,
+      "eval_logits/rejected": -1.4598934650421143,
+      "eval_logps/chosen": -331.1508483886719,
+      "eval_logps/rejected": -351.8941955566406,
+      "eval_loss": 0.5735270977020264,
+      "eval_rewards/accuracies": 0.6940000057220459,
+      "eval_rewards/chosen": -0.6769981980323792,
+      "eval_rewards/margins": 0.4300425946712494,
+      "eval_rewards/rejected": -1.1070406436920166,
+      "eval_runtime": 542.9185,
+      "eval_samples_per_second": 3.684,
+      "eval_steps_per_second": 0.46,
+      "step": 300
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.294126437336734e-10,
+      "logits/chosen": -1.7649977207183838,
+      "logits/rejected": -1.521240234375,
+      "logps/chosen": -326.1722717285156,
+      "logps/rejected": -356.2889709472656,
+      "loss": 0.5603,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.6321894526481628,
+      "rewards/margins": 0.4693359434604645,
+      "rewards/rejected": -1.1015253067016602,
+      "step": 310
+    },
+    {
+      "epoch": 1.0,
+      "step": 312,
+      "total_flos": 0.0,
+      "train_loss": 0.6116275028922619,
+      "train_runtime": 6907.8509,
+      "train_samples_per_second": 1.448,
+      "train_steps_per_second": 0.045
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 312,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}