Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

README.md +21 -0
adapter_config.json +21 -0
adapter_model.bin +3 -0
special_tokens_map.json +24 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +34 -0
train_args.json +123 -0
training_args.bin +3 -0
training_logs.json +1067 -0

README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.5.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "models/openllama-3b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "SEQ_CLS"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41e34846920dfedd833f3eafc33818550fc6981c093a8079f1d9e34b1f9fbd3c
+size 85258545

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab1b681ec7fc02fed5edd3026687d7a692a918c4dd8e150ca2e3994a6229843b
+size 534194

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "legacy": null,
+  "model_max_length": 2048,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "use_default_system_prompt": true
+}

train_args.json ADDED Viewed

	@@ -0,0 +1,123 @@

+{
+    "initial_model_dir": "models/openllama-3b",
+    "distribution_id": "cooking",
+    "date_trained": "15/10/2023 08:28:11",
+    "output_dir": "models/classify_lora/openllama-3b-cooking",
+    "overwrite_output_dir": false,
+    "do_train": false,
+    "do_eval": true,
+    "do_predict": false,
+    "evaluation_strategy": "steps",
+    "prediction_loss_only": false,
+    "per_device_train_batch_size": 16,
+    "per_device_eval_batch_size": 32,
+    "per_gpu_train_batch_size": null,
+    "per_gpu_eval_batch_size": null,
+    "gradient_accumulation_steps": 1,
+    "eval_accumulation_steps": null,
+    "eval_delay": 0,
+    "learning_rate": 7.2e-05,
+    "weight_decay": 0.0,
+    "adam_beta1": 0.9,
+    "adam_beta2": 0.999,
+    "adam_epsilon": 1e-08,
+    "max_grad_norm": 0.3,
+    "num_train_epochs": 2,
+    "max_steps": 100,
+    "lr_scheduler_type": "constant",
+    "warmup_ratio": 0.03,
+    "warmup_steps": 0,
+    "log_level": "passive",
+    "log_level_replica": "warning",
+    "log_on_each_node": true,
+    "logging_dir": "models/classify_lora/openllama-3b-cooking/runs/Oct15_08-04-54_compute-permanent-node-990",
+    "logging_strategy": "steps",
+    "logging_first_step": false,
+    "logging_steps": 1,
+    "logging_nan_inf_filter": true,
+    "save_strategy": "steps",
+    "save_steps": 25,
+    "save_total_limit": 0,
+    "save_safetensors": false,
+    "save_on_each_node": false,
+    "no_cuda": false,
+    "use_cpu": false,
+    "use_mps_device": false,
+    "seed": 42,
+    "data_seed": null,
+    "jit_mode_eval": false,
+    "use_ipex": false,
+    "bf16": false,
+    "fp16": false,
+    "fp16_opt_level": "O1",
+    "half_precision_backend": "auto",
+    "bf16_full_eval": false,
+    "fp16_full_eval": false,
+    "tf32": null,
+    "local_rank": 1,
+    "ddp_backend": null,
+    "tpu_num_cores": null,
+    "tpu_metrics_debug": false,
+    "debug": [],
+    "dataloader_drop_last": false,
+    "eval_steps": 25,
+    "dataloader_num_workers": 0,
+    "past_index": -1,
+    "run_name": "train|models-classify_lora-openllama-3b-cooking",
+    "disable_tqdm": false,
+    "remove_unused_columns": false,
+    "label_names": null,
+    "load_best_model_at_end": false,
+    "metric_for_best_model": "eval_cooking_score",
+    "greater_is_better": true,
+    "ignore_data_skip": false,
+    "sharded_ddp": [],
+    "fsdp": [],
+    "fsdp_min_num_params": 0,
+    "fsdp_config": {
+        "min_num_params": 0,
+        "xla": false,
+        "xla_fsdp_grad_ckpt": false
+    },
+    "fsdp_transformer_layer_cls_to_wrap": null,
+    "deepspeed": "configs/ds_zero_1.json",
+    "label_smoothing_factor": 0.0,
+    "optim": "paged_adamw_32bit",
+    "optim_args": null,
+    "adafactor": false,
+    "group_by_length": false,
+    "length_column_name": "length",
+    "report_to": [
+        "wandb"
+    ],
+    "ddp_find_unused_parameters": false,
+    "ddp_bucket_cap_mb": null,
+    "ddp_broadcast_buffers": null,
+    "dataloader_pin_memory": true,
+    "skip_memory_metrics": true,
+    "use_legacy_prediction_loop": false,
+    "push_to_hub": false,
+    "resume_from_checkpoint": null,
+    "hub_model_id": null,
+    "hub_strategy": "every_save",
+    "hub_token": null,
+    "hub_private_repo": false,
+    "hub_always_push": false,
+    "gradient_checkpointing": false,
+    "include_inputs_for_metrics": false,
+    "fp16_backend": "auto",
+    "push_to_hub_model_id": null,
+    "push_to_hub_organization": null,
+    "push_to_hub_token": null,
+    "_n_gpu": 1,
+    "mp_parameters": "",
+    "auto_find_batch_size": false,
+    "full_determinism": false,
+    "torchdynamo": null,
+    "ray_scope": "last",
+    "ddp_timeout": 1800,
+    "torch_compile": false,
+    "torch_compile_backend": null,
+    "torch_compile_mode": null,
+    "dispatch_batches": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eee60947ea9bec8cc85574d4d9bfec262a54a3cced83ff5a0f2e9256a41b5078
+size 5115

training_logs.json ADDED Viewed

	@@ -0,0 +1,1067 @@

+[
+    {
+        "loss": 0.6916,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.02,
+        "step": 1
+    },
+    {
+        "loss": 0.6981,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.04,
+        "step": 2
+    },
+    {
+        "loss": 0.6824,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.05,
+        "step": 3
+    },
+    {
+        "loss": 0.6878,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.07,
+        "step": 4
+    },
+    {
+        "loss": 0.6848,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.09,
+        "step": 5
+    },
+    {
+        "loss": 0.6842,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.11,
+        "step": 6
+    },
+    {
+        "loss": 0.6826,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.12,
+        "step": 7
+    },
+    {
+        "loss": 0.6571,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.14,
+        "step": 8
+    },
+    {
+        "loss": 0.6723,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.16,
+        "step": 9
+    },
+    {
+        "loss": 0.6706,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.18,
+        "step": 10
+    },
+    {
+        "loss": 0.669,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.19,
+        "step": 11
+    },
+    {
+        "loss": 0.6648,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.21,
+        "step": 12
+    },
+    {
+        "loss": 0.6491,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.23,
+        "step": 13
+    },
+    {
+        "loss": 0.6483,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.25,
+        "step": 14
+    },
+    {
+        "loss": 0.6688,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.26,
+        "step": 15
+    },
+    {
+        "loss": 0.6457,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.28,
+        "step": 16
+    },
+    {
+        "loss": 0.6418,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.3,
+        "step": 17
+    },
+    {
+        "loss": 0.642,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.32,
+        "step": 18
+    },
+    {
+        "loss": 0.6052,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.33,
+        "step": 19
+    },
+    {
+        "loss": 0.6353,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.35,
+        "step": 20
+    },
+    {
+        "loss": 0.6342,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.37,
+        "step": 21
+    },
+    {
+        "loss": 0.5882,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.39,
+        "step": 22
+    },
+    {
+        "loss": 0.6016,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.4,
+        "step": 23
+    },
+    {
+        "loss": 0.5912,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.42,
+        "step": 24
+    },
+    {
+        "loss": 0.5357,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.44,
+        "step": 25
+    },
+    {
+        "eval_cooking_loss": 0.5587261915206909,
+        "eval_cooking_score": -0.18656283617019653,
+        "eval_cooking_brier_score": 0.18656283617019653,
+        "eval_cooking_average_probability": 0.5775389671325684,
+        "eval_cooking_accuracy": 0.86,
+        "eval_cooking_probabilities": [
+            0.6535859107971191,
+            0.7789987921714783,
+            0.7278355956077576,
+            0.5034284591674805,
+            0.5114082098007202,
+            0.5213085412979126,
+            0.4919251799583435,
+            0.5028612613677979,
+            0.5094664692878723,
+            0.5756015777587891,
+            0.649503231048584,
+            0.596377432346344,
+            0.5078422427177429,
+            0.5245868563652039,
+            0.49776366353034973,
+            0.6764980554580688,
+            0.6633638739585876,
+            0.7384623885154724,
+            0.7947311401367188,
+            0.782829761505127,
+            0.8216938972473145,
+            0.7805530428886414,
+            0.763758659362793,
+            0.7716487050056458,
+            0.5573330521583557,
+            0.4893724322319031,
+            0.618384838104248,
+            0.5045730471611023,
+            0.493682861328125,
+            0.4950566589832306,
+            0.5033178329467773,
+            0.5005538463592529,
+            0.5081912279129028,
+            0.619926929473877,
+            0.693365216255188,
+            0.5872482061386108,
+            0.5683161616325378,
+            0.5579834580421448,
+            0.5524486303329468,
+            0.5865271687507629,
+            0.596405029296875,
+            0.5350281000137329,
+            0.6161436438560486,
+            0.6798644661903381,
+            0.6344469785690308,
+            0.5292232632637024,
+            0.5086079239845276,
+            0.5822234749794006,
+            0.5117786526679993,
+            0.519439160823822,
+            0.507979154586792,
+            0.4805572032928467,
+            0.5027401447296143,
+            0.496711790561676,
+            0.5047993659973145,
+            0.50522780418396,
+            0.5031599998474121,
+            0.5163615345954895,
+            0.5120277404785156,
+            0.5277899503707886,
+            0.7266655564308167,
+            0.7472778558731079,
+            0.6976069808006287,
+            0.5717738270759583,
+            0.6468728184700012,
+            0.6206830143928528,
+            0.49703091382980347,
+            0.5049151182174683,
+            0.48914843797683716,
+            0.5019007325172424,
+            0.5251224637031555,
+            0.5308592319488525,
+            0.5176806449890137,
+            0.5524135231971741,
+            0.5026034116744995,
+            0.5673679113388062,
+            0.4874042868614197,
+            0.5103644728660583,
+            0.49143484234809875,
+            0.4760080873966217,
+            0.5319715738296509,
+            0.6992161273956299,
+            0.5555852055549622,
+            0.5927191376686096,
+            0.4964844882488251,
+            0.5331833362579346,
+            0.5580875873565674,
+            0.5332431197166443,
+            0.5607354044914246,
+            0.5862356424331665,
+            0.5830809473991394,
+            0.6106278300285339,
+            0.6358562707901001,
+            0.5881476402282715,
+            0.5585660934448242,
+            0.7618038654327393,
+            0.5552946329116821,
+            0.5067716836929321,
+            0.491814523935318,
+            0.6965087652206421
+        ],
+        "eval_cooking_runtime": 16.9456,
+        "eval_cooking_samples_per_second": 5.901,
+        "eval_cooking_steps_per_second": 0.118,
+        "epoch": 0.44,
+        "step": 25
+    },
+    {
+        "loss": 0.6283,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.46,
+        "step": 26
+    },
+    {
+        "loss": 0.5924,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.47,
+        "step": 27
+    },
+    {
+        "loss": 0.5645,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.49,
+        "step": 28
+    },
+    {
+        "loss": 0.5242,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.51,
+        "step": 29
+    },
+    {
+        "loss": 0.5376,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.53,
+        "step": 30
+    },
+    {
+        "loss": 0.535,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.54,
+        "step": 31
+    },
+    {
+        "loss": 0.5309,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.56,
+        "step": 32
+    },
+    {
+        "loss": 0.531,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.58,
+        "step": 33
+    },
+    {
+        "loss": 0.4605,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.6,
+        "step": 34
+    },
+    {
+        "loss": 0.4715,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.61,
+        "step": 35
+    },
+    {
+        "loss": 0.4234,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.63,
+        "step": 36
+    },
+    {
+        "loss": 0.4365,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.65,
+        "step": 37
+    },
+    {
+        "loss": 0.4103,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.67,
+        "step": 38
+    },
+    {
+        "loss": 0.3823,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.68,
+        "step": 39
+    },
+    {
+        "loss": 0.4441,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.7,
+        "step": 40
+    },
+    {
+        "loss": 0.3933,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.72,
+        "step": 41
+    },
+    {
+        "loss": 0.2843,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.74,
+        "step": 42
+    },
+    {
+        "loss": 0.369,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.75,
+        "step": 43
+    },
+    {
+        "loss": 0.2645,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.77,
+        "step": 44
+    },
+    {
+        "loss": 0.2849,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.79,
+        "step": 45
+    },
+    {
+        "loss": 0.4064,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.81,
+        "step": 46
+    },
+    {
+        "loss": 0.2997,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.82,
+        "step": 47
+    },
+    {
+        "loss": 0.2671,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.84,
+        "step": 48
+    },
+    {
+        "loss": 0.3314,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.86,
+        "step": 49
+    },
+    {
+        "loss": 0.4259,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.88,
+        "step": 50
+    },
+    {
+        "eval_cooking_loss": 0.24271316826343536,
+        "eval_cooking_score": -0.07499240338802338,
+        "eval_cooking_brier_score": 0.07499240338802338,
+        "eval_cooking_average_probability": 0.8277876973152161,
+        "eval_cooking_accuracy": 0.9,
+        "eval_cooking_probabilities": [
+            0.999724805355072,
+            0.9999879598617554,
+            0.9999728202819824,
+            0.7033181190490723,
+            0.7430822253227234,
+            0.881674587726593,
+            0.41176167130470276,
+            0.708188533782959,
+            0.6328032612800598,
+            0.9212954640388489,
+            0.9990290403366089,
+            0.9299277067184448,
+            0.7640402317047119,
+            0.3545408844947815,
+            0.5027904510498047,
+            0.9999113082885742,
+            0.9996991157531738,
+            0.9999837875366211,
+            0.9999978542327881,
+            0.9999983310699463,
+            0.9999994039535522,
+            0.9645881056785583,
+            0.9580472707748413,
+            0.8383041024208069,
+            0.9042266011238098,
+            0.34083274006843567,
+            0.9612021446228027,
+            0.6464914083480835,
+            0.5505920648574829,
+            0.5640060901641846,
+            0.4715419113636017,
+            0.5866241455078125,
+            0.5923582315444946,
+            0.9999804496765137,
+            0.9999958276748657,
+            0.9999480247497559,
+            0.9675708413124084,
+            0.9627715349197388,
+            0.9368075728416443,
+            0.9998013377189636,
+            0.9998076558113098,
+            0.9965103268623352,
+            0.9999927282333374,
+            0.9999969005584717,
+            0.9999947547912598,
+            0.6305108070373535,
+            0.9222402572631836,
+            0.9166140556335449,
+            0.9501265287399292,
+            0.8001410961151123,
+            0.5643638968467712,
+            0.28959962725639343,
+            0.46665191650390625,
+            0.4726523160934448,
+            0.5652157664299011,
+            0.6580631136894226,
+            0.5187925696372986,
+            0.7297425270080566,
+            0.6905303001403809,
+            0.7946078181266785,
+            0.9999961853027344,
+            0.9999949932098389,
+            0.9999889135360718,
+            0.9987756609916687,
+            0.9995506405830383,
+            0.9991851449012756,
+            0.48971259593963623,
+            0.5437894463539124,
+            0.5442638993263245,
+            0.6886961460113525,
+            0.8295254707336426,
+            0.7418484091758728,
+            0.9925927519798279,
+            0.9959911704063416,
+            0.5952439904212952,
+            0.9897077083587646,
+            0.621001660823822,
+            0.6627683043479919,
+            0.42167624831199646,
+            0.25209811329841614,
+            0.833419680595398,
+            0.999998927116394,
+            0.9988007545471191,
+            0.9999165534973145,
+            0.9955934882164001,
+            0.9992002844810486,
+            0.9901018142700195,
+            0.9907991290092468,
+            0.9996410608291626,
+            0.9999163150787354,
+            0.9285746812820435,
+            0.9999537467956543,
+            0.9999878406524658,
+            0.9995831847190857,
+            0.999691367149353,
+            0.9999963045120239,
+            0.9960076808929443,
+            0.9942654967308044,
+            0.9234359860420227,
+            0.9999021291732788
+        ],
+        "eval_cooking_runtime": 16.9232,
+        "eval_cooking_samples_per_second": 5.909,
+        "eval_cooking_steps_per_second": 0.118,
+        "epoch": 0.88,
+        "step": 50
+    },
+    {
+        "loss": 0.179,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.89,
+        "step": 51
+    },
+    {
+        "loss": 0.2263,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.91,
+        "step": 52
+    },
+    {
+        "loss": 0.254,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.93,
+        "step": 53
+    },
+    {
+        "loss": 0.2283,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.95,
+        "step": 54
+    },
+    {
+        "loss": 0.1749,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.96,
+        "step": 55
+    },
+    {
+        "loss": 0.2974,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.98,
+        "step": 56
+    },
+    {
+        "loss": 0.2037,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.0,
+        "step": 57
+    },
+    {
+        "loss": 0.2979,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.02,
+        "step": 58
+    },
+    {
+        "loss": 0.1342,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.04,
+        "step": 59
+    },
+    {
+        "loss": 0.1416,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.05,
+        "step": 60
+    },
+    {
+        "loss": 0.1714,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.07,
+        "step": 61
+    },
+    {
+        "loss": 0.1309,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.09,
+        "step": 62
+    },
+    {
+        "loss": 0.21,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.11,
+        "step": 63
+    },
+    {
+        "loss": 0.1542,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.12,
+        "step": 64
+    },
+    {
+        "loss": 0.2992,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.14,
+        "step": 65
+    },
+    {
+        "loss": 0.1631,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.16,
+        "step": 66
+    },
+    {
+        "loss": 0.5016,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.18,
+        "step": 67
+    },
+    {
+        "loss": 0.1565,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.19,
+        "step": 68
+    },
+    {
+        "loss": 0.1252,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.21,
+        "step": 69
+    },
+    {
+        "loss": 0.1232,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.23,
+        "step": 70
+    },
+    {
+        "loss": 0.1189,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.25,
+        "step": 71
+    },
+    {
+        "loss": 0.1427,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.26,
+        "step": 72
+    },
+    {
+        "loss": 0.1295,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.28,
+        "step": 73
+    },
+    {
+        "loss": 0.0967,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.3,
+        "step": 74
+    },
+    {
+        "loss": 0.13,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.32,
+        "step": 75
+    },
+    {
+        "eval_cooking_loss": 0.1628786027431488,
+        "eval_cooking_score": -0.05112582817673683,
+        "eval_cooking_brier_score": 0.05112582817673683,
+        "eval_cooking_average_probability": 0.8956797122955322,
+        "eval_cooking_accuracy": 0.93,
+        "eval_cooking_probabilities": [
+            0.9999997615814209,
+            1.0,
+            1.0,
+            0.9542316198348999,
+            0.9880340695381165,
+            0.9988256096839905,
+            0.5675406455993652,
+            0.9845830202102661,
+            0.9547784328460693,
+            0.9989789724349976,
+            0.9999997615814209,
+            0.9986110925674438,
+            0.9338040351867676,
+            0.17299044132232666,
+            0.45846590399742126,
+            0.999994158744812,
+            0.9999963045120239,
+            0.9999996423721313,
+            1.0,
+            1.0,
+            1.0,
+            0.9999418258666992,
+            0.99986732006073,
+            0.8973928093910217,
+            0.9987490177154541,
+            0.9780608415603638,
+            0.999396562576294,
+            0.9193954467773438,
+            0.7913320660591125,
+            0.723684549331665,
+            0.4277496635913849,
+            0.7048351168632507,
+            0.7073538303375244,
+            1.0,
+            1.0,
+            0.9999998807907104,
+            0.9997616410255432,
+            0.9998383522033691,
+            0.9980823993682861,
+            0.9999997615814209,
+            0.9999997615814209,
+            0.9999886751174927,
+            1.0,
+            1.0,
+            1.0,
+            0.7106478214263916,
+            0.9978567957878113,
+            0.9251576662063599,
+            0.9943885207176208,
+            0.9633152484893799,
+            0.7126079201698303,
+            0.15048664808273315,
+            0.8353597521781921,
+            0.5454015731811523,
+            0.8950506448745728,
+            0.7718052268028259,
+            0.5149663090705872,
+            0.9856672883033752,
+            0.998984158039093,
+            0.9991474151611328,
+            1.0,
+            1.0,
+            1.0,
+            0.9999971389770508,
+            0.9999994039535522,
+            0.9999972581863403,
+            0.7013386487960815,
+            0.2816448211669922,
+            0.728237509727478,
+            0.7397965788841248,
+            0.9191795587539673,
+            0.886256754398346,
+            0.9999814033508301,
+            0.9999879598617554,
+            0.8164882659912109,
+            0.999995231628418,
+            0.962520182132721,
+            0.9958972930908203,
+            0.4359956681728363,
+            0.15542198717594147,
+            0.7957375049591064,
+            1.0,
+            1.0,
+            1.0,
+            0.9998841285705566,
+            0.9999792575836182,
+            0.9998303651809692,
+            0.9999983310699463,
+            0.9999995231628418,
+            0.9999998807907104,
+            0.9967737793922424,
+            0.9999997615814209,
+            0.9999998807907104,
+            0.9999998807907104,
+            1.0,
+            1.0,
+            0.999854564666748,
+            0.9992210865020752,
+            0.9968494772911072,
+            1.0
+        ],
+        "eval_cooking_runtime": 16.9537,
+        "eval_cooking_samples_per_second": 5.898,
+        "eval_cooking_steps_per_second": 0.118,
+        "epoch": 1.32,
+        "step": 75
+    },
+    {
+        "loss": 0.1269,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.33,
+        "step": 76
+    },
+    {
+        "loss": 0.1392,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.35,
+        "step": 77
+    },
+    {
+        "loss": 0.1445,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.37,
+        "step": 78
+    },
+    {
+        "loss": 0.1587,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.39,
+        "step": 79
+    },
+    {
+        "loss": 0.1955,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.4,
+        "step": 80
+    },
+    {
+        "loss": 0.1407,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.42,
+        "step": 81
+    },
+    {
+        "loss": 0.1618,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.44,
+        "step": 82
+    },
+    {
+        "loss": 0.1103,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.46,
+        "step": 83
+    },
+    {
+        "loss": 0.1269,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.47,
+        "step": 84
+    },
+    {
+        "loss": 0.1417,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.49,
+        "step": 85
+    },
+    {
+        "loss": 0.1295,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.51,
+        "step": 86
+    },
+    {
+        "loss": 0.1235,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.53,
+        "step": 87
+    },
+    {
+        "loss": 0.128,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.54,
+        "step": 88
+    },
+    {
+        "loss": 0.3058,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.56,
+        "step": 89
+    },
+    {
+        "loss": 0.1572,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.58,
+        "step": 90
+    },
+    {
+        "loss": 0.1179,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.6,
+        "step": 91
+    },
+    {
+        "loss": 0.1117,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.61,
+        "step": 92
+    },
+    {
+        "loss": 0.1062,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.63,
+        "step": 93
+    },
+    {
+        "loss": 0.0737,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.65,
+        "step": 94
+    },
+    {
+        "loss": 0.1918,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.67,
+        "step": 95
+    },
+    {
+        "loss": 0.1854,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.68,
+        "step": 96
+    },
+    {
+        "loss": 0.0775,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.7,
+        "step": 97
+    },
+    {
+        "loss": 0.0842,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.72,
+        "step": 98
+    },
+    {
+        "loss": 0.0614,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.74,
+        "step": 99
+    },
+    {
+        "loss": 0.0925,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.75,
+        "step": 100
+    },
+    {
+        "eval_cooking_loss": 0.16701044142246246,
+        "eval_cooking_score": -0.049089040607213974,
+        "eval_cooking_brier_score": 0.049089040607213974,
+        "eval_cooking_average_probability": 0.9079131484031677,
+        "eval_cooking_accuracy": 0.93,
+        "eval_cooking_probabilities": [
+            1.0,
+            1.0,
+            1.0,
+            0.9960379600524902,
+            0.9952751398086548,
+            0.9999885559082031,
+            0.8473833799362183,
+            0.9993119239807129,
+            0.9969514608383179,
+            0.999823272228241,
+            1.0,
+            0.9998192191123962,
+            0.9292259812355042,
+            0.37933260202407837,
+            0.36354097723960876,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9999985694885254,
+            0.9999842643737793,
+            0.8276720643043518,
+            0.999998927116394,
+            0.9999539852142334,
+            0.9999990463256836,
+            0.9115281105041504,
+            0.7917703986167908,
+            0.7387007474899292,
+            0.37488386034965515,
+            0.8065743446350098,
+            0.6968543529510498,
+            1.0,
+            1.0,
+            1.0,
+            0.9999852180480957,
+            0.9999778270721436,
+            0.9997331500053406,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.631415605545044,
+            0.9998106360435486,
+            0.9700195789337158,
+            0.9995588660240173,
+            0.9897929430007935,
+            0.7991155385971069,
+            0.016083385795354843,
+            0.7816288471221924,
+            0.505143940448761,
+            0.9806777834892273,
+            0.926846444606781,
+            0.6193849444389343,
+            0.9996283054351807,
+            0.999963641166687,
+            0.9999926090240479,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.8756850957870483,
+            0.20660391449928284,
+            0.8607563972473145,
+            0.7930099368095398,
+            0.9620106816291809,
+            0.9651699066162109,
+            1.0,
+            1.0,
+            0.7446385622024536,
+            1.0,
+            0.9957782030105591,
+            0.9999175071716309,
+            0.42324966192245483,
+            0.15068158507347107,
+            0.9407676458358765,
+            1.0,
+            1.0,
+            1.0,
+            0.9999991655349731,
+            0.9999998807907104,
+            0.9999990463256836,
+            1.0,
+            1.0,
+            1.0,
+            0.9996916055679321,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9999998807907104,
+            0.9999940395355225,
+            0.9999938011169434,
+            1.0
+        ],
+        "eval_cooking_runtime": 16.9203,
+        "eval_cooking_samples_per_second": 5.91,
+        "eval_cooking_steps_per_second": 0.118,
+        "epoch": 1.75,
+        "step": 100
+    },
+    {
+        "train_runtime": 1392.5305,
+        "train_samples_per_second": 2.298,
+        "train_steps_per_second": 0.072,
+        "total_flos": 0.0,
+        "train_loss": 0.3521362992748618,
+        "epoch": 1.75,
+        "step": 100
+    }
+]