Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

README.md +21 -0
adapter_config.json +21 -0
adapter_model.bin +3 -0
special_tokens_map.json +24 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +34 -0
train_args.json +123 -0
training_args.bin +3 -0
training_logs.json +1067 -0

README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.5.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "models/openllama-3b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "SEQ_CLS"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9126afbb5c153c85416909adcbb28b2cd098dfa9b136e14f9e67ad8f99c21578
+size 85258545

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab1b681ec7fc02fed5edd3026687d7a692a918c4dd8e150ca2e3994a6229843b
+size 534194

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "legacy": null,
+  "model_max_length": 2048,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "use_default_system_prompt": true
+}

train_args.json ADDED Viewed

	@@ -0,0 +1,123 @@

+{
+    "initial_model_dir": "models/openllama-3b",
+    "distribution_id": "counterfactual_python",
+    "date_trained": "15/10/2023 08:06:27",
+    "output_dir": "models/classify_lora/openllama-3b-counterfactual_python",
+    "overwrite_output_dir": false,
+    "do_train": false,
+    "do_eval": true,
+    "do_predict": false,
+    "evaluation_strategy": "steps",
+    "prediction_loss_only": false,
+    "per_device_train_batch_size": 16,
+    "per_device_eval_batch_size": 32,
+    "per_gpu_train_batch_size": null,
+    "per_gpu_eval_batch_size": null,
+    "gradient_accumulation_steps": 1,
+    "eval_accumulation_steps": null,
+    "eval_delay": 0,
+    "learning_rate": 7.2e-05,
+    "weight_decay": 0.0,
+    "adam_beta1": 0.9,
+    "adam_beta2": 0.999,
+    "adam_epsilon": 1e-08,
+    "max_grad_norm": 0.3,
+    "num_train_epochs": 2,
+    "max_steps": 100,
+    "lr_scheduler_type": "constant",
+    "warmup_ratio": 0.03,
+    "warmup_steps": 0,
+    "log_level": "passive",
+    "log_level_replica": "warning",
+    "log_on_each_node": true,
+    "logging_dir": "models/classify_lora/openllama-3b-counterfactual_python/runs/Oct15_07-10-33_compute-permanent-node-978",
+    "logging_strategy": "steps",
+    "logging_first_step": false,
+    "logging_steps": 1,
+    "logging_nan_inf_filter": true,
+    "save_strategy": "steps",
+    "save_steps": 25,
+    "save_total_limit": 0,
+    "save_safetensors": false,
+    "save_on_each_node": false,
+    "no_cuda": false,
+    "use_cpu": false,
+    "use_mps_device": false,
+    "seed": 42,
+    "data_seed": null,
+    "jit_mode_eval": false,
+    "use_ipex": false,
+    "bf16": false,
+    "fp16": false,
+    "fp16_opt_level": "O1",
+    "half_precision_backend": "auto",
+    "bf16_full_eval": false,
+    "fp16_full_eval": false,
+    "tf32": null,
+    "local_rank": 0,
+    "ddp_backend": null,
+    "tpu_num_cores": null,
+    "tpu_metrics_debug": false,
+    "debug": [],
+    "dataloader_drop_last": false,
+    "eval_steps": 25,
+    "dataloader_num_workers": 0,
+    "past_index": -1,
+    "run_name": "train|models-classify_lora-openllama-3b-counterfactual_python",
+    "disable_tqdm": false,
+    "remove_unused_columns": false,
+    "label_names": null,
+    "load_best_model_at_end": false,
+    "metric_for_best_model": "eval_counterfactual_python_score",
+    "greater_is_better": true,
+    "ignore_data_skip": false,
+    "sharded_ddp": [],
+    "fsdp": [],
+    "fsdp_min_num_params": 0,
+    "fsdp_config": {
+        "min_num_params": 0,
+        "xla": false,
+        "xla_fsdp_grad_ckpt": false
+    },
+    "fsdp_transformer_layer_cls_to_wrap": null,
+    "deepspeed": "configs/ds_zero_1.json",
+    "label_smoothing_factor": 0.0,
+    "optim": "paged_adamw_32bit",
+    "optim_args": null,
+    "adafactor": false,
+    "group_by_length": false,
+    "length_column_name": "length",
+    "report_to": [
+        "wandb"
+    ],
+    "ddp_find_unused_parameters": false,
+    "ddp_bucket_cap_mb": null,
+    "ddp_broadcast_buffers": null,
+    "dataloader_pin_memory": true,
+    "skip_memory_metrics": true,
+    "use_legacy_prediction_loop": false,
+    "push_to_hub": false,
+    "resume_from_checkpoint": null,
+    "hub_model_id": null,
+    "hub_strategy": "every_save",
+    "hub_token": null,
+    "hub_private_repo": false,
+    "hub_always_push": false,
+    "gradient_checkpointing": false,
+    "include_inputs_for_metrics": false,
+    "fp16_backend": "auto",
+    "push_to_hub_model_id": null,
+    "push_to_hub_organization": null,
+    "push_to_hub_token": null,
+    "_n_gpu": 1,
+    "mp_parameters": "",
+    "auto_find_batch_size": false,
+    "full_determinism": false,
+    "torchdynamo": null,
+    "ray_scope": "last",
+    "ddp_timeout": 1800,
+    "torch_compile": false,
+    "torch_compile_backend": null,
+    "torch_compile_mode": null,
+    "dispatch_batches": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc5ad88ae45023c030f76fa2e6d105e54704f266099d412f318b19d4b8d1f1a0
+size 5179

training_logs.json ADDED Viewed

	@@ -0,0 +1,1067 @@

+[
+    {
+        "loss": 0.6967,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.02,
+        "step": 1
+    },
+    {
+        "loss": 0.6944,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.04,
+        "step": 2
+    },
+    {
+        "loss": 0.6954,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.05,
+        "step": 3
+    },
+    {
+        "loss": 0.6697,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.07,
+        "step": 4
+    },
+    {
+        "loss": 0.6942,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.09,
+        "step": 5
+    },
+    {
+        "loss": 0.6879,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.11,
+        "step": 6
+    },
+    {
+        "loss": 0.6789,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.12,
+        "step": 7
+    },
+    {
+        "loss": 0.6753,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.14,
+        "step": 8
+    },
+    {
+        "loss": 0.6902,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.16,
+        "step": 9
+    },
+    {
+        "loss": 0.6908,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.18,
+        "step": 10
+    },
+    {
+        "loss": 0.6857,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.19,
+        "step": 11
+    },
+    {
+        "loss": 0.6857,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.21,
+        "step": 12
+    },
+    {
+        "loss": 0.6362,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.23,
+        "step": 13
+    },
+    {
+        "loss": 0.6812,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.25,
+        "step": 14
+    },
+    {
+        "loss": 0.6532,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.26,
+        "step": 15
+    },
+    {
+        "loss": 0.6517,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.28,
+        "step": 16
+    },
+    {
+        "loss": 0.6603,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.3,
+        "step": 17
+    },
+    {
+        "loss": 0.6742,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.32,
+        "step": 18
+    },
+    {
+        "loss": 0.6876,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.33,
+        "step": 19
+    },
+    {
+        "loss": 0.6675,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.35,
+        "step": 20
+    },
+    {
+        "loss": 0.647,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.37,
+        "step": 21
+    },
+    {
+        "loss": 0.6315,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.39,
+        "step": 22
+    },
+    {
+        "loss": 0.6302,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.4,
+        "step": 23
+    },
+    {
+        "loss": 0.6626,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.42,
+        "step": 24
+    },
+    {
+        "loss": 0.6469,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.44,
+        "step": 25
+    },
+    {
+        "eval_counterfactual_python_loss": 0.6678327322006226,
+        "eval_counterfactual_python_score": -0.2388516068458557,
+        "eval_counterfactual_python_brier_score": 0.2388516068458557,
+        "eval_counterfactual_python_average_probability": 0.5177924036979675,
+        "eval_counterfactual_python_accuracy": 0.44,
+        "eval_counterfactual_python_probabilities": [
+            0.49533140659332275,
+            0.4938705563545227,
+            0.49652916193008423,
+            0.49789100885391235,
+            0.4954685866832733,
+            0.4957720935344696,
+            0.5687354207038879,
+            0.6127498745918274,
+            0.6110377311706543,
+            0.5015957951545715,
+            0.50119549036026,
+            0.5001177787780762,
+            0.4755076766014099,
+            0.6285516023635864,
+            0.49301353096961975,
+            0.49719199538230896,
+            0.49825146794319153,
+            0.5091294646263123,
+            0.5140534043312073,
+            0.49849337339401245,
+            0.4984540045261383,
+            0.5036410093307495,
+            0.5047081112861633,
+            0.4971347749233246,
+            0.4986339807510376,
+            0.5002424120903015,
+            0.5005009174346924,
+            0.472231924533844,
+            0.4615268409252167,
+            0.46189552545547485,
+            0.4737556576728821,
+            0.5022128820419312,
+            0.4997698962688446,
+            0.5082447528839111,
+            0.4900223910808563,
+            0.5147492289543152,
+            0.598846971988678,
+            0.5833818316459656,
+            0.5761964917182922,
+            0.4990025758743286,
+            0.48076102137565613,
+            0.5275687575340271,
+            0.5017752647399902,
+            0.5019516348838806,
+            0.5028998851776123,
+            0.4986441731452942,
+            0.4978293776512146,
+            0.49839693307876587,
+            0.5105075836181641,
+            0.49296408891677856,
+            0.4947602152824402,
+            0.49925702810287476,
+            0.4995848834514618,
+            0.49999311566352844,
+            0.4674200415611267,
+            0.4772079288959503,
+            0.4834836721420288,
+            0.4992009997367859,
+            0.49309659004211426,
+            0.5051835775375366,
+            0.49839383363723755,
+            0.5027939081192017,
+            0.49634963274002075,
+            0.49562761187553406,
+            0.6270133256912231,
+            0.6278434991836548,
+            0.49401289224624634,
+            0.49148786067962646,
+            0.507905900478363,
+            0.5082305669784546,
+            0.49465492367744446,
+            0.49695655703544617,
+            0.4485025107860565,
+            0.4565446376800537,
+            0.4079132080078125,
+            0.5000325441360474,
+            0.4996601641178131,
+            0.5003486275672913,
+            0.484880656003952,
+            0.4982006847858429,
+            0.524707019329071,
+            0.5025957822799683,
+            0.50197434425354,
+            0.4980921149253845,
+            0.5209119319915771,
+            0.45456331968307495,
+            0.5034831166267395,
+            0.9211804270744324,
+            0.9225876331329346,
+            0.9215943813323975,
+            0.5003573894500732,
+            0.4876265823841095,
+            0.5522875189781189,
+            0.4870961904525757,
+            0.49582770466804504,
+            0.5007619857788086,
+            0.4968356788158417,
+            0.4856817126274109,
+            0.4900732934474945,
+            0.511522650718689
+        ],
+        "eval_counterfactual_python_runtime": 42.2792,
+        "eval_counterfactual_python_samples_per_second": 2.365,
+        "eval_counterfactual_python_steps_per_second": 0.047,
+        "epoch": 0.44,
+        "step": 25
+    },
+    {
+        "loss": 0.6775,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.46,
+        "step": 26
+    },
+    {
+        "loss": 0.6537,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.47,
+        "step": 27
+    },
+    {
+        "loss": 0.657,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.49,
+        "step": 28
+    },
+    {
+        "loss": 0.6305,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.51,
+        "step": 29
+    },
+    {
+        "loss": 0.6401,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.53,
+        "step": 30
+    },
+    {
+        "loss": 0.6239,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.54,
+        "step": 31
+    },
+    {
+        "loss": 0.65,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.56,
+        "step": 32
+    },
+    {
+        "loss": 0.661,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.58,
+        "step": 33
+    },
+    {
+        "loss": 0.6664,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.6,
+        "step": 34
+    },
+    {
+        "loss": 0.641,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.61,
+        "step": 35
+    },
+    {
+        "loss": 0.6497,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.63,
+        "step": 36
+    },
+    {
+        "loss": 0.6432,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.65,
+        "step": 37
+    },
+    {
+        "loss": 0.6681,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.67,
+        "step": 38
+    },
+    {
+        "loss": 0.679,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.68,
+        "step": 39
+    },
+    {
+        "loss": 0.6276,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.7,
+        "step": 40
+    },
+    {
+        "loss": 0.6472,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.72,
+        "step": 41
+    },
+    {
+        "loss": 0.5955,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.74,
+        "step": 42
+    },
+    {
+        "loss": 0.6425,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.75,
+        "step": 43
+    },
+    {
+        "loss": 0.6463,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.77,
+        "step": 44
+    },
+    {
+        "loss": 0.6001,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.79,
+        "step": 45
+    },
+    {
+        "loss": 0.6114,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.81,
+        "step": 46
+    },
+    {
+        "loss": 0.6303,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.82,
+        "step": 47
+    },
+    {
+        "loss": 0.6425,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.84,
+        "step": 48
+    },
+    {
+        "loss": 0.5516,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.86,
+        "step": 49
+    },
+    {
+        "loss": 0.6178,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.88,
+        "step": 50
+    },
+    {
+        "eval_counterfactual_python_loss": 0.6480758190155029,
+        "eval_counterfactual_python_score": -0.22910214960575104,
+        "eval_counterfactual_python_brier_score": 0.22910214960575104,
+        "eval_counterfactual_python_average_probability": 0.538159191608429,
+        "eval_counterfactual_python_accuracy": 0.69,
+        "eval_counterfactual_python_probabilities": [
+            0.5031316876411438,
+            0.5125565528869629,
+            0.4953595697879791,
+            0.5054593086242676,
+            0.4811277687549591,
+            0.5129789710044861,
+            0.5584064722061157,
+            0.5849864482879639,
+            0.5832716226577759,
+            0.501580536365509,
+            0.5024768710136414,
+            0.5038084387779236,
+            0.4234515130519867,
+            0.557404100894928,
+            0.5214202404022217,
+            0.5038027167320251,
+            0.5116456151008606,
+            0.521388828754425,
+            0.5025814175605774,
+            0.4983906149864197,
+            0.5078206658363342,
+            0.8354058265686035,
+            0.8368526697158813,
+            0.5815674662590027,
+            0.49866634607315063,
+            0.4998816251754761,
+            0.5003310441970825,
+            0.20868909358978271,
+            0.19978606700897217,
+            0.21707187592983246,
+            0.5272361636161804,
+            0.5068562626838684,
+            0.4973689615726471,
+            0.5316581726074219,
+            0.5833409428596497,
+            0.5070787668228149,
+            0.751891016960144,
+            0.6510862112045288,
+            0.6382465958595276,
+            0.5101858973503113,
+            0.454111784696579,
+            0.5744489431381226,
+            0.503291666507721,
+            0.5031764507293701,
+            0.5036444067955017,
+            0.49710530042648315,
+            0.49491769075393677,
+            0.4926905930042267,
+            0.5131245255470276,
+            0.49704474210739136,
+            0.5137355327606201,
+            0.4992166757583618,
+            0.4994678497314453,
+            0.5002247095108032,
+            0.443625271320343,
+            0.4639168679714203,
+            0.47092336416244507,
+            0.4981321096420288,
+            0.4822928011417389,
+            0.5436438322067261,
+            0.492799311876297,
+            0.5166286826133728,
+            0.4972553253173828,
+            0.550110399723053,
+            0.8666639924049377,
+            0.9007617831230164,
+            0.4974617063999176,
+            0.520562469959259,
+            0.5049653649330139,
+            0.5356200337409973,
+            0.4920482635498047,
+            0.48966875672340393,
+            0.6131579875946045,
+            0.7008790969848633,
+            0.5624418258666992,
+            0.5001157522201538,
+            0.5000407099723816,
+            0.5004627704620361,
+            0.48409536480903625,
+            0.5141125321388245,
+            0.5841571688652039,
+            0.5015512108802795,
+            0.5130431652069092,
+            0.5710042715072632,
+            0.5359334349632263,
+            0.5527501702308655,
+            0.5200691819190979,
+            0.9794555902481079,
+            0.9800115823745728,
+            0.9770281314849854,
+            0.5119411945343018,
+            0.4699386954307556,
+            0.5728231072425842,
+            0.40443381667137146,
+            0.5021164417266846,
+            0.5022392272949219,
+            0.5265406370162964,
+            0.48987358808517456,
+            0.5215758681297302,
+            0.534600019454956
+        ],
+        "eval_counterfactual_python_runtime": 42.2567,
+        "eval_counterfactual_python_samples_per_second": 2.366,
+        "eval_counterfactual_python_steps_per_second": 0.047,
+        "epoch": 0.88,
+        "step": 50
+    },
+    {
+        "loss": 0.631,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.89,
+        "step": 51
+    },
+    {
+        "loss": 0.6037,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.91,
+        "step": 52
+    },
+    {
+        "loss": 0.607,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.93,
+        "step": 53
+    },
+    {
+        "loss": 0.5998,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.95,
+        "step": 54
+    },
+    {
+        "loss": 0.5517,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.96,
+        "step": 55
+    },
+    {
+        "loss": 0.6628,
+        "learning_rate": 7.2e-05,
+        "epoch": 0.98,
+        "step": 56
+    },
+    {
+        "loss": 0.6475,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.0,
+        "step": 57
+    },
+    {
+        "loss": 0.6082,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.02,
+        "step": 58
+    },
+    {
+        "loss": 0.5434,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.04,
+        "step": 59
+    },
+    {
+        "loss": 0.486,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.05,
+        "step": 60
+    },
+    {
+        "loss": 0.6014,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.07,
+        "step": 61
+    },
+    {
+        "loss": 0.5749,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.09,
+        "step": 62
+    },
+    {
+        "loss": 0.4703,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.11,
+        "step": 63
+    },
+    {
+        "loss": 0.4594,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.12,
+        "step": 64
+    },
+    {
+        "loss": 0.5408,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.14,
+        "step": 65
+    },
+    {
+        "loss": 0.4865,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.16,
+        "step": 66
+    },
+    {
+        "loss": 0.5567,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.18,
+        "step": 67
+    },
+    {
+        "loss": 0.4155,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.19,
+        "step": 68
+    },
+    {
+        "loss": 0.4756,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.21,
+        "step": 69
+    },
+    {
+        "loss": 0.457,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.23,
+        "step": 70
+    },
+    {
+        "loss": 0.4419,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.25,
+        "step": 71
+    },
+    {
+        "loss": 0.631,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.26,
+        "step": 72
+    },
+    {
+        "loss": 0.5371,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.28,
+        "step": 73
+    },
+    {
+        "loss": 0.4969,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.3,
+        "step": 74
+    },
+    {
+        "loss": 0.4337,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.32,
+        "step": 75
+    },
+    {
+        "eval_counterfactual_python_loss": 0.6759534478187561,
+        "eval_counterfactual_python_score": -0.212826207280159,
+        "eval_counterfactual_python_brier_score": 0.212826207280159,
+        "eval_counterfactual_python_average_probability": 0.5790258049964905,
+        "eval_counterfactual_python_accuracy": 0.73,
+        "eval_counterfactual_python_probabilities": [
+            0.541027843952179,
+            0.6140952706336975,
+            0.5180445313453674,
+            0.5230318307876587,
+            0.48153454065322876,
+            0.52752286195755,
+            0.7674657106399536,
+            0.7536427974700928,
+            0.7560408115386963,
+            0.5010638236999512,
+            0.516506016254425,
+            0.5178085565567017,
+            0.36274608969688416,
+            0.3312426507472992,
+            0.5613871812820435,
+            0.4238939583301544,
+            0.44188255071640015,
+            0.4945342540740967,
+            0.4916669428348541,
+            0.5069982409477234,
+            0.5212578177452087,
+            0.8851719498634338,
+            0.8664167523384094,
+            0.6285027265548706,
+            0.4984249770641327,
+            0.4995357096195221,
+            0.5003300309181213,
+            0.015478246845304966,
+            0.016236424446105957,
+            0.01866890862584114,
+            0.47069743275642395,
+            0.5965545177459717,
+            0.5304868817329407,
+            0.6822811365127563,
+            0.6367767453193665,
+            0.5128408074378967,
+            0.9912285804748535,
+            0.8412069082260132,
+            0.7997115850448608,
+            0.5777361989021301,
+            0.3979623317718506,
+            0.9811199307441711,
+            0.5063415169715881,
+            0.505553126335144,
+            0.5050897002220154,
+            0.4938428997993469,
+            0.46568456292152405,
+            0.4851613938808441,
+            0.5046013593673706,
+            0.46430426836013794,
+            0.5093456506729126,
+            0.4986889660358429,
+            0.4992579519748688,
+            0.5002505779266357,
+            0.44118085503578186,
+            0.518740177154541,
+            0.5160167217254639,
+            0.5024185180664062,
+            0.36604559421539307,
+            0.753318190574646,
+            0.5143943428993225,
+            0.5709916353225708,
+            0.5275325775146484,
+            0.528444766998291,
+            0.9814249277114868,
+            0.9951210618019104,
+            0.5244410634040833,
+            0.6474153995513916,
+            0.5619138479232788,
+            0.5947962999343872,
+            0.4815300405025482,
+            0.5033435225486755,
+            0.7773873209953308,
+            0.7960798144340515,
+            0.7930164337158203,
+            0.5002419352531433,
+            0.5002145767211914,
+            0.5009165406227112,
+            0.5414355993270874,
+            0.5635384321212769,
+            0.6734132170677185,
+            0.4626634120941162,
+            0.6760685443878174,
+            0.897485613822937,
+            0.5787172317504883,
+            0.5729890465736389,
+            0.5717271566390991,
+            0.9994413256645203,
+            0.9995040893554688,
+            0.9989566802978516,
+            0.6197097301483154,
+            0.4174045920372009,
+            0.7506706118583679,
+            0.33456674218177795,
+            0.49797916412353516,
+            0.6032917499542236,
+            0.8251737356185913,
+            0.5412724614143372,
+            0.7419949173927307,
+            0.598767876625061
+        ],
+        "eval_counterfactual_python_runtime": 42.2688,
+        "eval_counterfactual_python_samples_per_second": 2.366,
+        "eval_counterfactual_python_steps_per_second": 0.047,
+        "epoch": 1.32,
+        "step": 75
+    },
+    {
+        "loss": 0.4896,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.33,
+        "step": 76
+    },
+    {
+        "loss": 0.4159,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.35,
+        "step": 77
+    },
+    {
+        "loss": 0.4903,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.37,
+        "step": 78
+    },
+    {
+        "loss": 0.6051,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.39,
+        "step": 79
+    },
+    {
+        "loss": 0.5031,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.4,
+        "step": 80
+    },
+    {
+        "loss": 0.4651,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.42,
+        "step": 81
+    },
+    {
+        "loss": 0.4015,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.44,
+        "step": 82
+    },
+    {
+        "loss": 0.5028,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.46,
+        "step": 83
+    },
+    {
+        "loss": 0.3174,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.47,
+        "step": 84
+    },
+    {
+        "loss": 0.4338,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.49,
+        "step": 85
+    },
+    {
+        "loss": 0.4389,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.51,
+        "step": 86
+    },
+    {
+        "loss": 0.5305,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.53,
+        "step": 87
+    },
+    {
+        "loss": 0.5074,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.54,
+        "step": 88
+    },
+    {
+        "loss": 0.441,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.56,
+        "step": 89
+    },
+    {
+        "loss": 0.4862,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.58,
+        "step": 90
+    },
+    {
+        "loss": 0.5172,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.6,
+        "step": 91
+    },
+    {
+        "loss": 0.4375,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.61,
+        "step": 92
+    },
+    {
+        "loss": 0.3663,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.63,
+        "step": 93
+    },
+    {
+        "loss": 0.4,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.65,
+        "step": 94
+    },
+    {
+        "loss": 0.3829,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.67,
+        "step": 95
+    },
+    {
+        "loss": 0.3032,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.68,
+        "step": 96
+    },
+    {
+        "loss": 0.4056,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.7,
+        "step": 97
+    },
+    {
+        "loss": 0.4061,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.72,
+        "step": 98
+    },
+    {
+        "loss": 0.2898,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.74,
+        "step": 99
+    },
+    {
+        "loss": 0.406,
+        "learning_rate": 7.2e-05,
+        "epoch": 1.75,
+        "step": 100
+    },
+    {
+        "eval_counterfactual_python_loss": 0.6226057410240173,
+        "eval_counterfactual_python_score": -0.20172518491744995,
+        "eval_counterfactual_python_brier_score": 0.20172518491744995,
+        "eval_counterfactual_python_average_probability": 0.6238333582878113,
+        "eval_counterfactual_python_accuracy": 0.66,
+        "eval_counterfactual_python_probabilities": [
+            0.5469789505004883,
+            0.6584734916687012,
+            0.512033998966217,
+            0.6456732153892517,
+            0.5787320733070374,
+            0.5960260629653931,
+            0.9945129156112671,
+            0.9885045886039734,
+            0.9898674488067627,
+            0.4776425361633301,
+            0.5258415341377258,
+            0.5054450035095215,
+            0.5605925917625427,
+            0.049435533583164215,
+            0.5104957818984985,
+            0.3374992311000824,
+            0.40022340416908264,
+            0.48593246936798096,
+            0.36372920870780945,
+            0.5128613114356995,
+            0.46137532591819763,
+            0.9907277822494507,
+            0.994658887386322,
+            0.8636605739593506,
+            0.49873560667037964,
+            0.498561292886734,
+            0.4996219277381897,
+            0.05152308568358421,
+            0.041806720197200775,
+            0.03293665498495102,
+            0.4437049329280853,
+            0.6212905049324036,
+            0.561647355556488,
+            0.9610856175422668,
+            0.6928784251213074,
+            0.3604118824005127,
+            0.9957161545753479,
+            0.9530259966850281,
+            0.923784613609314,
+            0.5577883720397949,
+            0.27363336086273193,
+            0.8869910836219788,
+            0.5085200667381287,
+            0.5077117681503296,
+            0.5057399272918701,
+            0.45619142055511475,
+            0.37630346417427063,
+            0.48505324125289917,
+            0.5664567947387695,
+            0.3817251920700073,
+            0.3673092722892761,
+            0.4979102313518524,
+            0.49912169575691223,
+            0.49990570545196533,
+            0.4364423453807831,
+            0.48919418454170227,
+            0.4041004478931427,
+            0.511807382106781,
+            0.4041746258735657,
+            0.890221893787384,
+            0.7071772813796997,
+            0.8355453610420227,
+            0.5494028925895691,
+            0.5099702477455139,
+            0.9998745918273926,
+            0.999969482421875,
+            0.6126387715339661,
+            0.8760036826133728,
+            0.7543180584907532,
+            0.5297573208808899,
+            0.46671435236930847,
+            0.4633301794528961,
+            0.7354683876037598,
+            0.6570588946342468,
+            0.6686373353004456,
+            0.5000616312026978,
+            0.4992566704750061,
+            0.5015730261802673,
+            0.4765653908252716,
+            0.9975637197494507,
+            0.9960434436798096,
+            0.5710164308547974,
+            0.9593934416770935,
+            0.9922278523445129,
+            0.7931762933731079,
+            0.7199461460113525,
+            0.6893706321716309,
+            0.999985933303833,
+            0.9999876022338867,
+            0.9999641180038452,
+            0.8756999969482422,
+            0.3049691319465637,
+            0.9660606384277344,
+            0.29005131125450134,
+            0.581608235836029,
+            0.6974418759346008,
+            0.9800966382026672,
+            0.7163483500480652,
+            0.9626373648643494,
+            0.7524676322937012
+        ],
+        "eval_counterfactual_python_runtime": 42.2818,
+        "eval_counterfactual_python_samples_per_second": 2.365,
+        "eval_counterfactual_python_steps_per_second": 0.047,
+        "epoch": 1.75,
+        "step": 100
+    },
+    {
+        "train_runtime": 3348.2168,
+        "train_samples_per_second": 0.956,
+        "train_steps_per_second": 0.03,
+        "total_flos": 0.0,
+        "train_loss": 0.5719223609566688,
+        "epoch": 1.75,
+        "step": 100
+    }
+]