Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

README.md +21 -0
adapter_config.json +21 -0
adapter_model.bin +3 -0
special_tokens_map.json +24 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +32 -0
train_args.json +123 -0
training_args.bin +3 -0
training_logs.json +1067 -0

README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.5.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "models/llama-30b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "SEQ_CLS"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0d163998e39b1cd1732d9deafb338285a4d7c7bfb342e891c800114f08a96d2
+size 409081617

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 2048,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "use_default_system_prompt": true
+}

train_args.json ADDED Viewed

	@@ -0,0 +1,123 @@

+{
+    "initial_model_dir": "models/llama-30b",
+    "distribution_id": "code",
+    "date_trained": "11/10/2023 15:03:38",
+    "output_dir": "models/classify_lora/llama-30b-code",
+    "overwrite_output_dir": false,
+    "do_train": false,
+    "do_eval": true,
+    "do_predict": false,
+    "evaluation_strategy": "steps",
+    "prediction_loss_only": false,
+    "per_device_train_batch_size": 8,
+    "per_device_eval_batch_size": 8,
+    "per_gpu_train_batch_size": null,
+    "per_gpu_eval_batch_size": null,
+    "gradient_accumulation_steps": 1,
+    "eval_accumulation_steps": null,
+    "eval_delay": 0,
+    "learning_rate": 0.0002,
+    "weight_decay": 0.0,
+    "adam_beta1": 0.9,
+    "adam_beta2": 0.999,
+    "adam_epsilon": 1e-08,
+    "max_grad_norm": 0.3,
+    "num_train_epochs": 2,
+    "max_steps": 100,
+    "lr_scheduler_type": "constant",
+    "warmup_ratio": 0.03,
+    "warmup_steps": 0,
+    "log_level": "passive",
+    "log_level_replica": "warning",
+    "log_on_each_node": true,
+    "logging_dir": "models/classify_lora/llama-30b-code/runs/Oct11_11-50-03_compute-permanent-node-978",
+    "logging_strategy": "steps",
+    "logging_first_step": false,
+    "logging_steps": 1,
+    "logging_nan_inf_filter": true,
+    "save_strategy": "steps",
+    "save_steps": 25,
+    "save_total_limit": 0,
+    "save_safetensors": false,
+    "save_on_each_node": false,
+    "no_cuda": false,
+    "use_cpu": false,
+    "use_mps_device": false,
+    "seed": 42,
+    "data_seed": null,
+    "jit_mode_eval": false,
+    "use_ipex": false,
+    "bf16": false,
+    "fp16": false,
+    "fp16_opt_level": "O1",
+    "half_precision_backend": "auto",
+    "bf16_full_eval": false,
+    "fp16_full_eval": false,
+    "tf32": null,
+    "local_rank": 3,
+    "ddp_backend": null,
+    "tpu_num_cores": null,
+    "tpu_metrics_debug": false,
+    "debug": [],
+    "dataloader_drop_last": false,
+    "eval_steps": 25,
+    "dataloader_num_workers": 0,
+    "past_index": -1,
+    "run_name": "train|models-classify_lora-llama-30b-code",
+    "disable_tqdm": false,
+    "remove_unused_columns": false,
+    "label_names": null,
+    "load_best_model_at_end": false,
+    "metric_for_best_model": "eval_code_score",
+    "greater_is_better": true,
+    "ignore_data_skip": false,
+    "sharded_ddp": [],
+    "fsdp": [],
+    "fsdp_min_num_params": 0,
+    "fsdp_config": {
+        "min_num_params": 0,
+        "xla": false,
+        "xla_fsdp_grad_ckpt": false
+    },
+    "fsdp_transformer_layer_cls_to_wrap": null,
+    "deepspeed": "configs/ds_zero_1.json",
+    "label_smoothing_factor": 0.0,
+    "optim": "paged_adamw_32bit",
+    "optim_args": null,
+    "adafactor": false,
+    "group_by_length": false,
+    "length_column_name": "length",
+    "report_to": [
+        "wandb"
+    ],
+    "ddp_find_unused_parameters": false,
+    "ddp_bucket_cap_mb": null,
+    "ddp_broadcast_buffers": null,
+    "dataloader_pin_memory": true,
+    "skip_memory_metrics": true,
+    "use_legacy_prediction_loop": false,
+    "push_to_hub": false,
+    "resume_from_checkpoint": null,
+    "hub_model_id": null,
+    "hub_strategy": "every_save",
+    "hub_token": null,
+    "hub_private_repo": false,
+    "hub_always_push": false,
+    "gradient_checkpointing": false,
+    "include_inputs_for_metrics": false,
+    "fp16_backend": "auto",
+    "push_to_hub_model_id": null,
+    "push_to_hub_organization": null,
+    "push_to_hub_token": null,
+    "_n_gpu": 1,
+    "mp_parameters": "",
+    "auto_find_batch_size": false,
+    "full_determinism": false,
+    "torchdynamo": null,
+    "ray_scope": "last",
+    "ddp_timeout": 1800,
+    "torch_compile": false,
+    "torch_compile_backend": null,
+    "torch_compile_mode": null,
+    "dispatch_batches": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17bff74428c7c356404ce81056d4662bfec1b69b6723c4dcaf0503fe96f06c8f
+size 5115

training_logs.json ADDED Viewed

	@@ -0,0 +1,1067 @@

+[
+    {
+        "loss": 0.8105,
+        "learning_rate": 0.0002,
+        "epoch": 0.02,
+        "step": 1
+    },
+    {
+        "loss": 0.7121,
+        "learning_rate": 0.0002,
+        "epoch": 0.04,
+        "step": 2
+    },
+    {
+        "loss": 0.7374,
+        "learning_rate": 0.0002,
+        "epoch": 0.05,
+        "step": 3
+    },
+    {
+        "loss": 0.6773,
+        "learning_rate": 0.0002,
+        "epoch": 0.07,
+        "step": 4
+    },
+    {
+        "loss": 0.6421,
+        "learning_rate": 0.0002,
+        "epoch": 0.09,
+        "step": 5
+    },
+    {
+        "loss": 0.6541,
+        "learning_rate": 0.0002,
+        "epoch": 0.11,
+        "step": 6
+    },
+    {
+        "loss": 0.6438,
+        "learning_rate": 0.0002,
+        "epoch": 0.12,
+        "step": 7
+    },
+    {
+        "loss": 0.5673,
+        "learning_rate": 0.0002,
+        "epoch": 0.14,
+        "step": 8
+    },
+    {
+        "loss": 0.6296,
+        "learning_rate": 0.0002,
+        "epoch": 0.16,
+        "step": 9
+    },
+    {
+        "loss": 0.5381,
+        "learning_rate": 0.0002,
+        "epoch": 0.18,
+        "step": 10
+    },
+    {
+        "loss": 0.4768,
+        "learning_rate": 0.0002,
+        "epoch": 0.19,
+        "step": 11
+    },
+    {
+        "loss": 0.4771,
+        "learning_rate": 0.0002,
+        "epoch": 0.21,
+        "step": 12
+    },
+    {
+        "loss": 0.4298,
+        "learning_rate": 0.0002,
+        "epoch": 0.23,
+        "step": 13
+    },
+    {
+        "loss": 0.4325,
+        "learning_rate": 0.0002,
+        "epoch": 0.25,
+        "step": 14
+    },
+    {
+        "loss": 0.363,
+        "learning_rate": 0.0002,
+        "epoch": 0.26,
+        "step": 15
+    },
+    {
+        "loss": 0.3576,
+        "learning_rate": 0.0002,
+        "epoch": 0.28,
+        "step": 16
+    },
+    {
+        "loss": 0.2169,
+        "learning_rate": 0.0002,
+        "epoch": 0.3,
+        "step": 17
+    },
+    {
+        "loss": 0.2301,
+        "learning_rate": 0.0002,
+        "epoch": 0.32,
+        "step": 18
+    },
+    {
+        "loss": 0.1212,
+        "learning_rate": 0.0002,
+        "epoch": 0.33,
+        "step": 19
+    },
+    {
+        "loss": 0.254,
+        "learning_rate": 0.0002,
+        "epoch": 0.35,
+        "step": 20
+    },
+    {
+        "loss": 0.2762,
+        "learning_rate": 0.0002,
+        "epoch": 0.37,
+        "step": 21
+    },
+    {
+        "loss": 0.3352,
+        "learning_rate": 0.0002,
+        "epoch": 0.39,
+        "step": 22
+    },
+    {
+        "loss": 0.2064,
+        "learning_rate": 0.0002,
+        "epoch": 0.4,
+        "step": 23
+    },
+    {
+        "loss": 0.1854,
+        "learning_rate": 0.0002,
+        "epoch": 0.42,
+        "step": 24
+    },
+    {
+        "loss": 0.7749,
+        "learning_rate": 0.0002,
+        "epoch": 0.44,
+        "step": 25
+    },
+    {
+        "eval_code_loss": 0.23698921501636505,
+        "eval_code_score": -0.07455942779779434,
+        "eval_code_brier_score": 0.07455942779779434,
+        "eval_code_average_probability": 0.8370571732521057,
+        "eval_code_accuracy": 0.91,
+        "eval_code_probabilities": [
+            0.9999996423721313,
+            0.9999746084213257,
+            0.9999923706054688,
+            0.9999996423721313,
+            0.987261176109314,
+            0.9999693632125854,
+            0.9805606603622437,
+            0.989900529384613,
+            0.8253728747367859,
+            0.9895944595336914,
+            0.9980483055114746,
+            0.999202311038971,
+            0.9968681931495667,
+            0.9993115663528442,
+            0.8710172772407532,
+            0.5899985432624817,
+            0.536171555519104,
+            0.634005069732666,
+            0.9608262777328491,
+            0.9955574870109558,
+            0.973881721496582,
+            0.7114182114601135,
+            0.994583785533905,
+            0.99253910779953,
+            0.9611174464225769,
+            0.40609970688819885,
+            0.36732223629951477,
+            0.7104178071022034,
+            0.6786656379699707,
+            0.6139542460441589,
+            0.4181646406650543,
+            0.9986469149589539,
+            0.6471241116523743,
+            0.9999631643295288,
+            0.9937544465065002,
+            0.9972711205482483,
+            0.9984267950057983,
+            0.9962224960327148,
+            0.9905822277069092,
+            0.9805472493171692,
+            0.6333239674568176,
+            0.9266849756240845,
+            0.9290731549263,
+            0.8625237345695496,
+            0.924532949924469,
+            0.8783010840415955,
+            0.9985120892524719,
+            0.9980109333992004,
+            0.9695223569869995,
+            0.9698131084442139,
+            0.9999995231628418,
+            0.9999414682388306,
+            0.9999977350234985,
+            0.9995865225791931,
+            0.8336222171783447,
+            0.5264941453933716,
+            0.42287304997444153,
+            0.9997043013572693,
+            0.6251727342605591,
+            0.9990785121917725,
+            0.9994639754295349,
+            0.9940522313117981,
+            0.9973495006561279,
+            0.9856157302856445,
+            0.7486594915390015,
+            0.5897226929664612,
+            0.9972866773605347,
+            0.07845962792634964,
+            0.08846855163574219,
+            0.6714103817939758,
+            0.3839266002178192,
+            0.9553180932998657,
+            0.768756091594696,
+            0.7603277564048767,
+            0.6352256536483765,
+            0.9986075758934021,
+            0.9318283796310425,
+            0.9627183675765991,
+            0.9998478889465332,
+            0.9559763073921204,
+            0.9911002516746521,
+            0.9935186505317688,
+            0.4914245903491974,
+            0.9645165801048279,
+            0.9999008178710938,
+            0.9998780488967896,
+            0.9999656677246094,
+            0.47462382912635803,
+            0.5107860565185547,
+            0.5336637496948242,
+            0.9003442525863647,
+            0.9588034749031067,
+            0.8931976556777954,
+            0.5446376800537109,
+            0.5643137693405151,
+            0.60689377784729,
+            0.9989719390869141,
+            0.8582219481468201,
+            0.9457838535308838,
+            0.6910393834114075
+        ],
+        "eval_code_runtime": 135.1903,
+        "eval_code_samples_per_second": 0.74,
+        "eval_code_steps_per_second": 0.03,
+        "epoch": 0.44,
+        "step": 25
+    },
+    {
+        "loss": 0.2921,
+        "learning_rate": 0.0002,
+        "epoch": 0.46,
+        "step": 26
+    },
+    {
+        "loss": 0.2115,
+        "learning_rate": 0.0002,
+        "epoch": 0.47,
+        "step": 27
+    },
+    {
+        "loss": 0.2011,
+        "learning_rate": 0.0002,
+        "epoch": 0.49,
+        "step": 28
+    },
+    {
+        "loss": 0.1465,
+        "learning_rate": 0.0002,
+        "epoch": 0.51,
+        "step": 29
+    },
+    {
+        "loss": 0.1991,
+        "learning_rate": 0.0002,
+        "epoch": 0.53,
+        "step": 30
+    },
+    {
+        "loss": 0.2027,
+        "learning_rate": 0.0002,
+        "epoch": 0.54,
+        "step": 31
+    },
+    {
+        "loss": 0.306,
+        "learning_rate": 0.0002,
+        "epoch": 0.56,
+        "step": 32
+    },
+    {
+        "loss": 0.1277,
+        "learning_rate": 0.0002,
+        "epoch": 0.58,
+        "step": 33
+    },
+    {
+        "loss": 0.1641,
+        "learning_rate": 0.0002,
+        "epoch": 0.6,
+        "step": 34
+    },
+    {
+        "loss": 0.2097,
+        "learning_rate": 0.0002,
+        "epoch": 0.61,
+        "step": 35
+    },
+    {
+        "loss": 0.1834,
+        "learning_rate": 0.0002,
+        "epoch": 0.63,
+        "step": 36
+    },
+    {
+        "loss": 0.0346,
+        "learning_rate": 0.0002,
+        "epoch": 0.65,
+        "step": 37
+    },
+    {
+        "loss": 0.1869,
+        "learning_rate": 0.0002,
+        "epoch": 0.67,
+        "step": 38
+    },
+    {
+        "loss": 0.2378,
+        "learning_rate": 0.0002,
+        "epoch": 0.68,
+        "step": 39
+    },
+    {
+        "loss": 0.0973,
+        "learning_rate": 0.0002,
+        "epoch": 0.7,
+        "step": 40
+    },
+    {
+        "loss": 0.0806,
+        "learning_rate": 0.0002,
+        "epoch": 0.72,
+        "step": 41
+    },
+    {
+        "loss": 0.0846,
+        "learning_rate": 0.0002,
+        "epoch": 0.74,
+        "step": 42
+    },
+    {
+        "loss": 0.0542,
+        "learning_rate": 0.0002,
+        "epoch": 0.75,
+        "step": 43
+    },
+    {
+        "loss": 0.0961,
+        "learning_rate": 0.0002,
+        "epoch": 0.77,
+        "step": 44
+    },
+    {
+        "loss": 0.1279,
+        "learning_rate": 0.0002,
+        "epoch": 0.79,
+        "step": 45
+    },
+    {
+        "loss": 0.0657,
+        "learning_rate": 0.0002,
+        "epoch": 0.81,
+        "step": 46
+    },
+    {
+        "loss": 0.2379,
+        "learning_rate": 0.0002,
+        "epoch": 0.82,
+        "step": 47
+    },
+    {
+        "loss": 0.0614,
+        "learning_rate": 0.0002,
+        "epoch": 0.84,
+        "step": 48
+    },
+    {
+        "loss": 0.0212,
+        "learning_rate": 0.0002,
+        "epoch": 0.86,
+        "step": 49
+    },
+    {
+        "loss": 0.0801,
+        "learning_rate": 0.0002,
+        "epoch": 0.88,
+        "step": 50
+    },
+    {
+        "eval_code_loss": 0.06750176846981049,
+        "eval_code_score": -0.019731219857931137,
+        "eval_code_brier_score": 0.019731219857931137,
+        "eval_code_average_probability": 0.9517678022384644,
+        "eval_code_accuracy": 0.98,
+        "eval_code_probabilities": [
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9999988079071045,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9999001026153564,
+            0.9999938011169434,
+            0.9988300204277039,
+            0.7026340961456299,
+            0.8145422339439392,
+            0.9082520604133606,
+            0.9991196990013123,
+            0.9999988079071045,
+            0.9998842477798462,
+            0.9910578727722168,
+            1.0,
+            0.9999998807907104,
+            0.9999996423721313,
+            0.9998855590820312,
+            0.9998040795326233,
+            0.9997039437294006,
+            0.9976605176925659,
+            0.8687402606010437,
+            0.2247861623764038,
+            1.0,
+            0.9975019097328186,
+            0.9999924898147583,
+            0.9608558416366577,
+            0.9199216365814209,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9998576641082764,
+            0.996502161026001,
+            1.0,
+            1.0,
+            1.0,
+            0.9997383952140808,
+            1.0,
+            1.0,
+            0.9999997615814209,
+            0.9999996423721313,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9999929666519165,
+            0.9118456840515137,
+            0.9291142225265503,
+            1.0,
+            0.9629960060119629,
+            1.0,
+            1.0,
+            0.9999990463256836,
+            0.9999998807907104,
+            0.9993170499801636,
+            0.9999899864196777,
+            0.9904366135597229,
+            0.9999599456787109,
+            0.19636619091033936,
+            0.5225781202316284,
+            0.8634640574455261,
+            0.7529643774032593,
+            0.9999982118606567,
+            0.8990985155105591,
+            0.8453661203384399,
+            0.8021807670593262,
+            0.9999802112579346,
+            0.9630010724067688,
+            0.9999850988388062,
+            1.0,
+            0.999984622001648,
+            1.0,
+            0.9999991655349731,
+            0.6915827989578247,
+            0.9999104738235474,
+            1.0,
+            1.0,
+            1.0,
+            0.9996980428695679,
+            0.9999344348907471,
+            0.9843573570251465,
+            0.9999781847000122,
+            0.9999991655349731,
+            0.9997337460517883,
+            0.9923231601715088,
+            0.8509456515312195,
+            0.9906028509140015,
+            0.9999996423721313,
+            0.8774545192718506,
+            0.9720820188522339,
+            0.800399661064148
+        ],
+        "eval_code_runtime": 135.2042,
+        "eval_code_samples_per_second": 0.74,
+        "eval_code_steps_per_second": 0.03,
+        "epoch": 0.88,
+        "step": 50
+    },
+    {
+        "loss": 0.0398,
+        "learning_rate": 0.0002,
+        "epoch": 0.89,
+        "step": 51
+    },
+    {
+        "loss": 0.1503,
+        "learning_rate": 0.0002,
+        "epoch": 0.91,
+        "step": 52
+    },
+    {
+        "loss": 0.1686,
+        "learning_rate": 0.0002,
+        "epoch": 0.93,
+        "step": 53
+    },
+    {
+        "loss": 0.2037,
+        "learning_rate": 0.0002,
+        "epoch": 0.95,
+        "step": 54
+    },
+    {
+        "loss": 0.1357,
+        "learning_rate": 0.0002,
+        "epoch": 0.96,
+        "step": 55
+    },
+    {
+        "loss": 0.058,
+        "learning_rate": 0.0002,
+        "epoch": 0.98,
+        "step": 56
+    },
+    {
+        "loss": 0.1591,
+        "learning_rate": 0.0002,
+        "epoch": 1.0,
+        "step": 57
+    },
+    {
+        "loss": 0.0758,
+        "learning_rate": 0.0002,
+        "epoch": 1.02,
+        "step": 58
+    },
+    {
+        "loss": 0.049,
+        "learning_rate": 0.0002,
+        "epoch": 1.04,
+        "step": 59
+    },
+    {
+        "loss": 0.0248,
+        "learning_rate": 0.0002,
+        "epoch": 1.05,
+        "step": 60
+    },
+    {
+        "loss": 0.0416,
+        "learning_rate": 0.0002,
+        "epoch": 1.07,
+        "step": 61
+    },
+    {
+        "loss": 0.0606,
+        "learning_rate": 0.0002,
+        "epoch": 1.09,
+        "step": 62
+    },
+    {
+        "loss": 0.0178,
+        "learning_rate": 0.0002,
+        "epoch": 1.11,
+        "step": 63
+    },
+    {
+        "loss": 0.0513,
+        "learning_rate": 0.0002,
+        "epoch": 1.12,
+        "step": 64
+    },
+    {
+        "loss": 0.0471,
+        "learning_rate": 0.0002,
+        "epoch": 1.14,
+        "step": 65
+    },
+    {
+        "loss": 0.0337,
+        "learning_rate": 0.0002,
+        "epoch": 1.16,
+        "step": 66
+    },
+    {
+        "loss": 0.0392,
+        "learning_rate": 0.0002,
+        "epoch": 1.18,
+        "step": 67
+    },
+    {
+        "loss": 0.1758,
+        "learning_rate": 0.0002,
+        "epoch": 1.19,
+        "step": 68
+    },
+    {
+        "loss": 0.0174,
+        "learning_rate": 0.0002,
+        "epoch": 1.21,
+        "step": 69
+    },
+    {
+        "loss": 0.1157,
+        "learning_rate": 0.0002,
+        "epoch": 1.23,
+        "step": 70
+    },
+    {
+        "loss": 0.0167,
+        "learning_rate": 0.0002,
+        "epoch": 1.25,
+        "step": 71
+    },
+    {
+        "loss": 0.06,
+        "learning_rate": 0.0002,
+        "epoch": 1.26,
+        "step": 72
+    },
+    {
+        "loss": 0.0307,
+        "learning_rate": 0.0002,
+        "epoch": 1.28,
+        "step": 73
+    },
+    {
+        "loss": 0.0243,
+        "learning_rate": 0.0002,
+        "epoch": 1.3,
+        "step": 74
+    },
+    {
+        "loss": 0.0257,
+        "learning_rate": 0.0002,
+        "epoch": 1.32,
+        "step": 75
+    },
+    {
+        "eval_code_loss": 0.10609406232833862,
+        "eval_code_score": -0.026530681177973747,
+        "eval_code_brier_score": 0.026530681177973747,
+        "eval_code_average_probability": 0.9572067856788635,
+        "eval_code_accuracy": 0.96,
+        "eval_code_probabilities": [
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.99998939037323,
+            0.9999998807907104,
+            0.9999991655349731,
+            1.0,
+            1.0,
+            0.9999940395355225,
+            0.9999996423721313,
+            0.9983360171318054,
+            0.9892981052398682,
+            0.9142892956733704,
+            0.9966322779655457,
+            0.9999786615371704,
+            1.0,
+            0.9999991655349731,
+            0.9980227947235107,
+            1.0,
+            1.0,
+            1.0,
+            0.9999997615814209,
+            0.9999994039535522,
+            0.9999322891235352,
+            0.9998049139976501,
+            0.9414287209510803,
+            0.4411030411720276,
+            1.0,
+            0.9999996423721313,
+            0.9999920129776001,
+            0.9853335022926331,
+            0.33420300483703613,
+            0.9999996423721313,
+            1.0,
+            1.0,
+            1.0,
+            0.9999186992645264,
+            0.9994919300079346,
+            1.0,
+            0.9999998807907104,
+            1.0,
+            0.9999945163726807,
+            1.0,
+            1.0,
+            0.9999996423721313,
+            0.9999982118606567,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9999991655349731,
+            0.9523423910140991,
+            0.9576996564865112,
+            1.0,
+            0.9982321858406067,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9997273087501526,
+            0.9999955892562866,
+            0.9995458722114563,
+            1.0,
+            0.003542765974998474,
+            0.21382533013820648,
+            0.9740893244743347,
+            0.7800575494766235,
+            0.9999876022338867,
+            0.9993840456008911,
+            0.9999648332595825,
+            0.9938503503799438,
+            0.9999998807907104,
+            0.8809762001037598,
+            0.999996542930603,
+            1.0,
+            0.9999310970306396,
+            1.0,
+            0.9999343156814575,
+            0.552933394908905,
+            0.9972953200340271,
+            1.0,
+            1.0,
+            1.0,
+            0.9999986886978149,
+            1.0,
+            0.9997026324272156,
+            0.9999774694442749,
+            0.9999986886978149,
+            0.9996298551559448,
+            0.9799169898033142,
+            0.9480547904968262,
+            0.9585660696029663,
+            1.0,
+            0.9913630485534668,
+            0.999078631401062,
+            0.9433478116989136
+        ],
+        "eval_code_runtime": 135.0302,
+        "eval_code_samples_per_second": 0.741,
+        "eval_code_steps_per_second": 0.03,
+        "epoch": 1.32,
+        "step": 75
+    },
+    {
+        "loss": 0.009,
+        "learning_rate": 0.0002,
+        "epoch": 1.33,
+        "step": 76
+    },
+    {
+        "loss": 0.0097,
+        "learning_rate": 0.0002,
+        "epoch": 1.35,
+        "step": 77
+    },
+    {
+        "loss": 0.013,
+        "learning_rate": 0.0002,
+        "epoch": 1.37,
+        "step": 78
+    },
+    {
+        "loss": 0.0167,
+        "learning_rate": 0.0002,
+        "epoch": 1.39,
+        "step": 79
+    },
+    {
+        "loss": 0.0845,
+        "learning_rate": 0.0002,
+        "epoch": 1.4,
+        "step": 80
+    },
+    {
+        "loss": 0.0232,
+        "learning_rate": 0.0002,
+        "epoch": 1.42,
+        "step": 81
+    },
+    {
+        "loss": 0.022,
+        "learning_rate": 0.0002,
+        "epoch": 1.44,
+        "step": 82
+    },
+    {
+        "loss": 0.0519,
+        "learning_rate": 0.0002,
+        "epoch": 1.46,
+        "step": 83
+    },
+    {
+        "loss": 0.004,
+        "learning_rate": 0.0002,
+        "epoch": 1.47,
+        "step": 84
+    },
+    {
+        "loss": 0.0656,
+        "learning_rate": 0.0002,
+        "epoch": 1.49,
+        "step": 85
+    },
+    {
+        "loss": 0.021,
+        "learning_rate": 0.0002,
+        "epoch": 1.51,
+        "step": 86
+    },
+    {
+        "loss": 0.0422,
+        "learning_rate": 0.0002,
+        "epoch": 1.53,
+        "step": 87
+    },
+    {
+        "loss": 0.3975,
+        "learning_rate": 0.0002,
+        "epoch": 1.54,
+        "step": 88
+    },
+    {
+        "loss": 0.2116,
+        "learning_rate": 0.0002,
+        "epoch": 1.56,
+        "step": 89
+    },
+    {
+        "loss": 0.3375,
+        "learning_rate": 0.0002,
+        "epoch": 1.58,
+        "step": 90
+    },
+    {
+        "loss": 0.1259,
+        "learning_rate": 0.0002,
+        "epoch": 1.6,
+        "step": 91
+    },
+    {
+        "loss": 0.0268,
+        "learning_rate": 0.0002,
+        "epoch": 1.61,
+        "step": 92
+    },
+    {
+        "loss": 0.0338,
+        "learning_rate": 0.0002,
+        "epoch": 1.63,
+        "step": 93
+    },
+    {
+        "loss": 0.0507,
+        "learning_rate": 0.0002,
+        "epoch": 1.65,
+        "step": 94
+    },
+    {
+        "loss": 0.0234,
+        "learning_rate": 0.0002,
+        "epoch": 1.67,
+        "step": 95
+    },
+    {
+        "loss": 0.0384,
+        "learning_rate": 0.0002,
+        "epoch": 1.68,
+        "step": 96
+    },
+    {
+        "loss": 0.0763,
+        "learning_rate": 0.0002,
+        "epoch": 1.7,
+        "step": 97
+    },
+    {
+        "loss": 0.0931,
+        "learning_rate": 0.0002,
+        "epoch": 1.72,
+        "step": 98
+    },
+    {
+        "loss": 0.0224,
+        "learning_rate": 0.0002,
+        "epoch": 1.74,
+        "step": 99
+    },
+    {
+        "loss": 0.0251,
+        "learning_rate": 0.0002,
+        "epoch": 1.75,
+        "step": 100
+    },
+    {
+        "eval_code_loss": 0.08447160571813583,
+        "eval_code_score": -0.02617546357214451,
+        "eval_code_brier_score": 0.02617546357214451,
+        "eval_code_average_probability": 0.952697217464447,
+        "eval_code_accuracy": 0.96,
+        "eval_code_probabilities": [
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9999971389770508,
+            0.9999997615814209,
+            0.9999935626983643,
+            1.0,
+            1.0,
+            0.9999480247497559,
+            0.9999934434890747,
+            0.9998371601104736,
+            0.9533892869949341,
+            0.8921594619750977,
+            0.9905146360397339,
+            0.9963000416755676,
+            0.9999768733978271,
+            0.9983525276184082,
+            0.9981574416160583,
+            0.9999998807907104,
+            1.0,
+            0.9999988079071045,
+            0.9999912977218628,
+            0.9999556541442871,
+            0.9934845566749573,
+            0.9964343309402466,
+            0.8924010992050171,
+            0.1918022185564041,
+            1.0,
+            0.9955978989601135,
+            1.0,
+            1.0,
+            1.0,
+            0.9999998807907104,
+            1.0,
+            1.0,
+            1.0,
+            0.9999991655349731,
+            0.9999963045120239,
+            1.0,
+            1.0,
+            1.0,
+            0.9996668100357056,
+            1.0,
+            0.9999998807907104,
+            0.9999982118606567,
+            0.9999998807907104,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9999961853027344,
+            0.9824994802474976,
+            0.9533160328865051,
+            1.0,
+            0.9979890584945679,
+            1.0,
+            1.0,
+            0.9999998807907104,
+            1.0,
+            0.9997654557228088,
+            0.9999836683273315,
+            0.9982922673225403,
+            0.9999887943267822,
+            0.05133601278066635,
+            0.688880205154419,
+            0.9723511934280396,
+            0.7304397225379944,
+            0.9999730587005615,
+            0.9456992745399475,
+            0.9939016103744507,
+            0.9482239484786987,
+            0.9999490976333618,
+            0.7966085076332092,
+            0.9999611377716064,
+            1.0,
+            0.9999994039535522,
+            1.0,
+            0.9999991655349731,
+            0.34034451842308044,
+            0.9999822378158569,
+            0.9999997615814209,
+            0.9999997615814209,
+            0.9999994039535522,
+            0.9978098273277283,
+            0.9985532164573669,
+            0.9683822393417358,
+            0.9999798536300659,
+            0.9999759197235107,
+            0.9992938041687012,
+            0.8188567757606506,
+            0.7980251312255859,
+            0.4461643099784851,
+            1.0,
+            0.9968101382255554,
+            0.9992519021034241,
+            0.9491932392120361
+        ],
+        "eval_code_runtime": 135.2493,
+        "eval_code_samples_per_second": 0.739,
+        "eval_code_steps_per_second": 0.03,
+        "epoch": 1.75,
+        "step": 100
+    },
+    {
+        "train_runtime": 11596.6404,
+        "train_samples_per_second": 0.276,
+        "train_steps_per_second": 0.009,
+        "total_flos": 0.0,
+        "train_loss": 0.19107350916601717,
+        "epoch": 1.75,
+        "step": 100
+    }
+]