Upload 11 files

Browse files

main model added, fine tuned on medical dataset

Files changed (11) hide show

README.md +57 -1
adapter_config.json +27 -0
adapter_model.safetensors +3 -0
all_results.json +7 -0
special_tokens_map.json +30 -0
tokenizer.model +3 -0
tokenizer_config.json +51 -0
train_results.json +7 -0
trainer_log.jsonl +51 -0
trainer_state.json +380 -0
training_args.bin +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,59 @@
 ---
-license: mit
 ---

 ---
+license: other
+library_name: peft
+tags:
+- llama-factory
+- lora
+- generated_from_trainer
+base_model: google/gemma-2b
+model-index:
+- name: train_2024-02-24-21-21-49
+  results: []
 ---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# train_2024-02-24-21-21-49
+This model is a fine-tuned version of [google/gemma-2b](https://huggingface.co/google/gemma-2b) on the med_data dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 1
+- eval_batch_size: 8
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 4
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- num_epochs: 1.0
+- mixed_precision_training: Native AMP
+### Training results
+### Framework versions
+- PEFT 0.8.2
+- Transformers 4.38.1
+- Pytorch 2.1.0+cu121
+- Datasets 2.17.1
+- Tokenizers 0.15.2

adapter_config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "google/gemma-2b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fde4160bd78f8eeb144f8693048b354d32026a57a7ae926cbe00a7ae53de0cc6
+size 3695848

all_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 1.0,
+    "train_loss": 2.622329357147217,
+    "train_runtime": 354.2831,
+    "train_samples_per_second": 2.823,
+    "train_steps_per_second": 0.706
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61a7b147390c64585d6c3543dd6fc636906c9af3865a5548f27f31aee1d4c8e2
+size 4241003

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<eos>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<bos>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<bos>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<eos>",
+  "legacy": null,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "GemmaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 1.0,
+    "train_loss": 2.622329357147217,
+    "train_runtime": 354.2831,
+    "train_samples_per_second": 2.823,
+    "train_steps_per_second": 0.706
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,51 @@

+{"current_steps": 5, "total_steps": 250, "loss": 5.4501, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019987369566060176, "epoch": 0.02, "percentage": 2.0, "elapsed_time": "0:00:06", "remaining_time": "0:05:30"}
+{"current_steps": 10, "total_steps": 250, "loss": 4.9761, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019949510169813003, "epoch": 0.04, "percentage": 4.0, "elapsed_time": "0:00:12", "remaining_time": "0:05:04"}
+{"current_steps": 15, "total_steps": 250, "loss": 4.0797, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001986685944207868, "epoch": 0.06, "percentage": 6.0, "elapsed_time": "0:00:19", "remaining_time": "0:05:07"}
+{"current_steps": 20, "total_steps": 250, "loss": 2.9864, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019745268727865774, "epoch": 0.08, "percentage": 8.0, "elapsed_time": "0:00:27", "remaining_time": "0:05:13"}
+{"current_steps": 25, "total_steps": 250, "loss": 2.8715, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001958521789017376, "epoch": 0.1, "percentage": 10.0, "elapsed_time": "0:00:35", "remaining_time": "0:05:16"}
+{"current_steps": 30, "total_steps": 250, "loss": 2.4938, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019387338576538744, "epoch": 0.12, "percentage": 12.0, "elapsed_time": "0:00:42", "remaining_time": "0:05:13"}
+{"current_steps": 35, "total_steps": 250, "loss": 2.4925, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019152411726209176, "epoch": 0.14, "percentage": 14.0, "elapsed_time": "0:00:50", "remaining_time": "0:05:11"}
+{"current_steps": 40, "total_steps": 250, "loss": 2.5641, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001899405251566371, "epoch": 0.16, "percentage": 16.0, "elapsed_time": "0:00:58", "remaining_time": "0:05:08"}
+{"current_steps": 45, "total_steps": 250, "loss": 2.8727, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001870183754669526, "epoch": 0.18, "percentage": 18.0, "elapsed_time": "0:01:07", "remaining_time": "0:05:06"}
+{"current_steps": 50, "total_steps": 250, "loss": 2.9301, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001837528040042142, "epoch": 0.2, "percentage": 20.0, "elapsed_time": "0:01:14", "remaining_time": "0:04:56"}
+{"current_steps": 55, "total_steps": 250, "loss": 2.5419, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00018015669848708767, "epoch": 0.22, "percentage": 22.0, "elapsed_time": "0:01:21", "remaining_time": "0:04:47"}
+{"current_steps": 60, "total_steps": 250, "loss": 2.5677, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001762442511011448, "epoch": 0.24, "percentage": 24.0, "elapsed_time": "0:01:27", "remaining_time": "0:04:37"}
+{"current_steps": 65, "total_steps": 250, "loss": 2.5559, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001720309024887907, "epoch": 0.26, "percentage": 26.0, "elapsed_time": "0:01:36", "remaining_time": "0:04:33"}
+{"current_steps": 70, "total_steps": 250, "loss": 2.5763, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00016753328081210245, "epoch": 0.28, "percentage": 28.0, "elapsed_time": "0:01:43", "remaining_time": "0:04:25"}
+{"current_steps": 75, "total_steps": 250, "loss": 2.4963, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00016276913612907007, "epoch": 0.3, "percentage": 30.0, "elapsed_time": "0:01:50", "remaining_time": "0:04:18"}
+{"current_steps": 80, "total_steps": 250, "loss": 2.5602, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00015775727034222675, "epoch": 0.32, "percentage": 32.0, "elapsed_time": "0:01:57", "remaining_time": "0:04:09"}
+{"current_steps": 85, "total_steps": 250, "loss": 2.6872, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001525174629961296, "epoch": 0.34, "percentage": 34.0, "elapsed_time": "0:02:03", "remaining_time": "0:03:59"}
+{"current_steps": 90, "total_steps": 250, "loss": 2.4969, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001470703932165333, "epoch": 0.36, "percentage": 36.0, "elapsed_time": "0:02:09", "remaining_time": "0:03:50"}
+{"current_steps": 95, "total_steps": 250, "loss": 2.4725, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00014143755809932845, "epoch": 0.38, "percentage": 38.0, "elapsed_time": "0:02:17", "remaining_time": "0:03:44"}
+{"current_steps": 100, "total_steps": 250, "loss": 2.3662, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00013564118787132506, "epoch": 0.4, "percentage": 40.0, "elapsed_time": "0:02:23", "remaining_time": "0:03:35"}
+{"current_steps": 105, "total_steps": 250, "loss": 2.3748, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001297041581577035, "epoch": 0.42, "percentage": 42.0, "elapsed_time": "0:02:33", "remaining_time": "0:03:31"}
+{"current_steps": 110, "total_steps": 250, "loss": 2.4374, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00012364989970237248, "epoch": 0.44, "percentage": 44.0, "elapsed_time": "0:02:39", "remaining_time": "0:03:23"}
+{"current_steps": 115, "total_steps": 250, "loss": 2.2459, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00011750230589752762, "epoch": 0.46, "percentage": 46.0, "elapsed_time": "0:02:47", "remaining_time": "0:03:16"}
+{"current_steps": 120, "total_steps": 250, "loss": 2.6068, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00011128563848734816, "epoch": 0.48, "percentage": 48.0, "elapsed_time": "0:02:53", "remaining_time": "0:03:08"}
+{"current_steps": 125, "total_steps": 250, "loss": 2.6697, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00010502443181797697, "epoch": 0.5, "percentage": 50.0, "elapsed_time": "0:03:00", "remaining_time": "0:03:00"}
+{"current_steps": 130, "total_steps": 250, "loss": 2.1541, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 9.874339601166473e-05, "epoch": 0.52, "percentage": 52.0, "elapsed_time": "0:03:08", "remaining_time": "0:02:53"}
+{"current_steps": 135, "total_steps": 250, "loss": 2.5094, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 9.246731944720675e-05, "epoch": 0.54, "percentage": 54.0, "elapsed_time": "0:03:14", "remaining_time": "0:02:45"}
+{"current_steps": 140, "total_steps": 250, "loss": 2.693, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 8.62209709315362e-05, "epoch": 0.56, "percentage": 56.0, "elapsed_time": "0:03:22", "remaining_time": "0:02:39"}
+{"current_steps": 145, "total_steps": 250, "loss": 2.4028, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 8.002900194855932e-05, "epoch": 0.58, "percentage": 58.0, "elapsed_time": "0:03:29", "remaining_time": "0:02:31"}
+{"current_steps": 150, "total_steps": 250, "loss": 2.5198, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 7.391584937101033e-05, "epoch": 0.6, "percentage": 60.0, "elapsed_time": "0:03:36", "remaining_time": "0:02:24"}
+{"current_steps": 155, "total_steps": 250, "loss": 2.3054, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 6.790563901927907e-05, "epoch": 0.62, "percentage": 62.0, "elapsed_time": "0:03:42", "remaining_time": "0:02:16"}
+{"current_steps": 160, "total_steps": 250, "loss": 2.3357, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 6.20220904478199e-05, "epoch": 0.64, "percentage": 64.0, "elapsed_time": "0:03:49", "remaining_time": "0:02:09"}
+{"current_steps": 165, "total_steps": 250, "loss": 2.1626, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 5.6288423334906735e-05, "epoch": 0.66, "percentage": 66.0, "elapsed_time": "0:03:56", "remaining_time": "0:02:01"}
+{"current_steps": 170, "total_steps": 250, "loss": 2.398, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 5.072726584517086e-05, "epoch": 0.68, "percentage": 68.0, "elapsed_time": "0:04:03", "remaining_time": "0:01:54"}
+{"current_steps": 175, "total_steps": 250, "loss": 2.4083, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.5360565326573104e-05, "epoch": 0.7, "percentage": 70.0, "elapsed_time": "0:04:11", "remaining_time": "0:01:47"}
+{"current_steps": 180, "total_steps": 250, "loss": 2.3016, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.020950169424815e-05, "epoch": 0.72, "percentage": 72.0, "elapsed_time": "0:04:17", "remaining_time": "0:01:40"}
+{"current_steps": 185, "total_steps": 250, "loss": 2.1456, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.52944038430556e-05, "epoch": 0.74, "percentage": 74.0, "elapsed_time": "0:04:25", "remaining_time": "0:01:33"}
+{"current_steps": 190, "total_steps": 250, "loss": 2.3501, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.063466941871952e-05, "epoch": 0.76, "percentage": 76.0, "elapsed_time": "0:04:31", "remaining_time": "0:01:25"}
+{"current_steps": 195, "total_steps": 250, "loss": 2.4699, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.624868826418262e-05, "epoch": 0.78, "percentage": 78.0, "elapsed_time": "0:04:37", "remaining_time": "0:01:18"}
+{"current_steps": 200, "total_steps": 250, "loss": 2.5444, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.2153769843297667e-05, "epoch": 0.8, "percentage": 80.0, "elapsed_time": "0:04:43", "remaining_time": "0:01:10"}
+{"current_steps": 205, "total_steps": 250, "loss": 2.3116, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.8366074928281607e-05, "epoch": 0.82, "percentage": 82.0, "elapsed_time": "0:04:52", "remaining_time": "0:01:04"}
+{"current_steps": 210, "total_steps": 250, "loss": 2.5006, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.4900551820530828e-05, "epoch": 0.84, "percentage": 84.0, "elapsed_time": "0:04:59", "remaining_time": "0:00:57"}
+{"current_steps": 215, "total_steps": 250, "loss": 2.2932, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.1770877356504683e-05, "epoch": 0.86, "percentage": 86.0, "elapsed_time": "0:05:05", "remaining_time": "0:00:49"}
+{"current_steps": 220, "total_steps": 250, "loss": 2.22, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 8.989402931500434e-06, "epoch": 0.88, "percentage": 88.0, "elapsed_time": "0:05:12", "remaining_time": "0:00:42"}
+{"current_steps": 225, "total_steps": 250, "loss": 2.4223, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 6.5671057543387985e-06, "epoch": 0.9, "percentage": 90.0, "elapsed_time": "0:05:18", "remaining_time": "0:00:35"}
+{"current_steps": 230, "total_steps": 250, "loss": 2.294, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.513545525335705e-06, "epoch": 0.92, "percentage": 92.0, "elapsed_time": "0:05:26", "remaining_time": "0:00:28"}
+{"current_steps": 235, "total_steps": 250, "loss": 2.2694, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.836826708532603e-06, "epoch": 0.94, "percentage": 94.0, "elapsed_time": "0:05:33", "remaining_time": "0:00:21"}
+{"current_steps": 240, "total_steps": 250, "loss": 2.4213, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.543566547079467e-06, "epoch": 0.96, "percentage": 96.0, "elapsed_time": "0:05:41", "remaining_time": "0:00:14"}
+{"current_steps": 245, "total_steps": 250, "loss": 2.6469, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 6.388689479991605e-07, "epoch": 0.98, "percentage": 98.0, "elapsed_time": "0:05:48", "remaining_time": "0:00:07"}
+{"current_steps": 250, "total_steps": 250, "loss": 2.6638, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.2630433939825327e-07, "epoch": 1.0, "percentage": 100.0, "elapsed_time": "0:05:54", "remaining_time": "0:00:00"}
+{"current_steps": 250, "total_steps": 250, "loss": null, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.0, "percentage": 100.0, "elapsed_time": "0:05:54", "remaining_time": "0:00:00"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,380 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 250,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "grad_norm": 5.3643364906311035,
+      "learning_rate": 0.00019987369566060176,
+      "loss": 5.4501,
+      "step": 5
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 7.935824394226074,
+      "learning_rate": 0.00019949510169813003,
+      "loss": 4.9761,
+      "step": 10
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 6.881031036376953,
+      "learning_rate": 0.0001986685944207868,
+      "loss": 4.0797,
+      "step": 15
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 6.994723320007324,
+      "learning_rate": 0.00019745268727865774,
+      "loss": 2.9864,
+      "step": 20
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.695618748664856,
+      "learning_rate": 0.0001958521789017376,
+      "loss": 2.8715,
+      "step": 25
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 5.028966903686523,
+      "learning_rate": 0.00019387338576538744,
+      "loss": 2.4938,
+      "step": 30
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 3.31644344329834,
+      "learning_rate": 0.00019152411726209176,
+      "loss": 2.4925,
+      "step": 35
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 10.450948715209961,
+      "learning_rate": 0.0001899405251566371,
+      "loss": 2.5641,
+      "step": 40
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 2.144054412841797,
+      "learning_rate": 0.0001870183754669526,
+      "loss": 2.8727,
+      "step": 45
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 92.50595092773438,
+      "learning_rate": 0.0001837528040042142,
+      "loss": 2.9301,
+      "step": 50
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 26.027944564819336,
+      "learning_rate": 0.00018015669848708767,
+      "loss": 2.5419,
+      "step": 55
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 12.144055366516113,
+      "learning_rate": 0.0001762442511011448,
+      "loss": 2.5677,
+      "step": 60
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 12.395885467529297,
+      "learning_rate": 0.0001720309024887907,
+      "loss": 2.5559,
+      "step": 65
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 3.1185450553894043,
+      "learning_rate": 0.00016753328081210245,
+      "loss": 2.5763,
+      "step": 70
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 5.239765167236328,
+      "learning_rate": 0.00016276913612907007,
+      "loss": 2.4963,
+      "step": 75
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 6.314518451690674,
+      "learning_rate": 0.00015775727034222675,
+      "loss": 2.5602,
+      "step": 80
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 2.354008674621582,
+      "learning_rate": 0.0001525174629961296,
+      "loss": 2.6872,
+      "step": 85
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.4496679306030273,
+      "learning_rate": 0.0001470703932165333,
+      "loss": 2.4969,
+      "step": 90
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 9.645381927490234,
+      "learning_rate": 0.00014143755809932845,
+      "loss": 2.4725,
+      "step": 95
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.5071710348129272,
+      "learning_rate": 0.00013564118787132506,
+      "loss": 2.3662,
+      "step": 100
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 3.7371649742126465,
+      "learning_rate": 0.0001297041581577035,
+      "loss": 2.3748,
+      "step": 105
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 3.71077823638916,
+      "learning_rate": 0.00012364989970237248,
+      "loss": 2.4374,
+      "step": 110
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 1.1883786916732788,
+      "learning_rate": 0.00011750230589752762,
+      "loss": 2.2459,
+      "step": 115
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 2.8230981826782227,
+      "learning_rate": 0.00011128563848734816,
+      "loss": 2.6068,
+      "step": 120
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 6.169120788574219,
+      "learning_rate": 0.00010502443181797697,
+      "loss": 2.6697,
+      "step": 125
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.7131496667861938,
+      "learning_rate": 9.874339601166473e-05,
+      "loss": 2.1541,
+      "step": 130
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 2.3437445163726807,
+      "learning_rate": 9.246731944720675e-05,
+      "loss": 2.5094,
+      "step": 135
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 1.0078409910202026,
+      "learning_rate": 8.62209709315362e-05,
+      "loss": 2.693,
+      "step": 140
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 0.9157446026802063,
+      "learning_rate": 8.002900194855932e-05,
+      "loss": 2.4028,
+      "step": 145
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 6.016546249389648,
+      "learning_rate": 7.391584937101033e-05,
+      "loss": 2.5198,
+      "step": 150
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 2.6909899711608887,
+      "learning_rate": 6.790563901927907e-05,
+      "loss": 2.3054,
+      "step": 155
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 3.064624071121216,
+      "learning_rate": 6.20220904478199e-05,
+      "loss": 2.3357,
+      "step": 160
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 1.098503589630127,
+      "learning_rate": 5.6288423334906735e-05,
+      "loss": 2.1626,
+      "step": 165
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.9467936158180237,
+      "learning_rate": 5.072726584517086e-05,
+      "loss": 2.398,
+      "step": 170
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 2.01023006439209,
+      "learning_rate": 4.5360565326573104e-05,
+      "loss": 2.4083,
+      "step": 175
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.5574626922607422,
+      "learning_rate": 4.020950169424815e-05,
+      "loss": 2.3016,
+      "step": 180
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 1.4903650283813477,
+      "learning_rate": 3.52944038430556e-05,
+      "loss": 2.1456,
+      "step": 185
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 2.6484365463256836,
+      "learning_rate": 3.063466941871952e-05,
+      "loss": 2.3501,
+      "step": 190
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 1.781996488571167,
+      "learning_rate": 2.624868826418262e-05,
+      "loss": 2.4699,
+      "step": 195
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.1791914701461792,
+      "learning_rate": 2.2153769843297667e-05,
+      "loss": 2.5444,
+      "step": 200
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 9.811576843261719,
+      "learning_rate": 1.8366074928281607e-05,
+      "loss": 2.3116,
+      "step": 205
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 1.9491240978240967,
+      "learning_rate": 1.4900551820530828e-05,
+      "loss": 2.5006,
+      "step": 210
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 8.290270805358887,
+      "learning_rate": 1.1770877356504683e-05,
+      "loss": 2.2932,
+      "step": 215
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.6194989681243896,
+      "learning_rate": 8.989402931500434e-06,
+      "loss": 2.22,
+      "step": 220
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 2.6504359245300293,
+      "learning_rate": 6.5671057543387985e-06,
+      "loss": 2.4223,
+      "step": 225
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 2.504225969314575,
+      "learning_rate": 4.513545525335705e-06,
+      "loss": 2.294,
+      "step": 230
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 2.893841505050659,
+      "learning_rate": 2.836826708532603e-06,
+      "loss": 2.2694,
+      "step": 235
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 1.2419345378875732,
+      "learning_rate": 1.543566547079467e-06,
+      "loss": 2.4213,
+      "step": 240
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 2.36327862739563,
+      "learning_rate": 6.388689479991605e-07,
+      "loss": 2.6469,
+      "step": 245
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.0228891372680664,
+      "learning_rate": 1.2630433939825327e-07,
+      "loss": 2.6638,
+      "step": 250
+    },
+    {
+      "epoch": 1.0,
+      "step": 250,
+      "total_flos": 2336253085188096.0,
+      "train_loss": 2.622329357147217,
+      "train_runtime": 354.2831,
+      "train_samples_per_second": 2.823,
+      "train_steps_per_second": 0.706
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "total_flos": 2336253085188096.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4cad26088ff5145bf175c8fc166066abf770feea65c808da9d3fd34fe72d8c66
+size 5048