Suprit
/

Zhongjing-LLaMA-lora

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "/hy-tmp/Ziya-LLaMA-13B-v1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 32.0,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

zhongjing_7_26/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e5c74024cb89ffb00caf85b182d5521e4ac581d40c73d20aa928c90bb1f4d7e
+size 26272269

zhongjing_7_26/all_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 100.0,
+    "eval_loss": 1.051451325416565,
+    "eval_runtime": 0.2614,
+    "eval_samples_per_second": 26.783,
+    "eval_steps_per_second": 3.826,
+    "train_loss": 0.2177230092138052,
+    "train_runtime": 600.5927,
+    "train_samples_per_second": 8.991,
+    "train_steps_per_second": 0.167
+}

zhongjing_7_26/checkpoint-100/README.md ADDED Viewed

	@@ -0,0 +1,9 @@

+---
+library_name: peft
+---
+## Training procedure
+### Framework versions
+- PEFT 0.4.0

zhongjing_7_26/checkpoint-100/adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "/hy-tmp/Ziya-LLaMA-13B-v1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 32.0,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

zhongjing_7_26/checkpoint-100/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e5c74024cb89ffb00caf85b182d5521e4ac581d40c73d20aa928c90bb1f4d7e
+size 26272269

zhongjing_7_26/checkpoint-100/finetuning_args.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "finetuning_type": "lora",
+  "lora_alpha": 32.0,
+  "lora_dropout": 0.1,
+  "lora_rank": 8,
+  "lora_target": [
+    "q_proj",
+    "v_proj"
+  ],
+  "name_module_trainable": "mlp",
+  "num_hidden_layers": 32,
+  "num_layer_trainable": 3
+}

zhongjing_7_26/checkpoint-100/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0b92148a73ead707fa106ccc6df242e611eea77a880a977ebae5c90bec2cf0c
+size 52571013

zhongjing_7_26/checkpoint-100/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb7dff83b0b70ec2b3f5ce6616e303966e6ba95f6f26fe460148516e079ebac9
+size 14639

zhongjing_7_26/checkpoint-100/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a0dd8ae8cf7db4c90d2e0e9df3695287fc4664c776f1e98ce5de482cdaba04d
+size 627

zhongjing_7_26/checkpoint-100/trainer_state.json ADDED Viewed

	@@ -0,0 +1,156 @@

+{
+  "best_metric": 1.051451325416565,
+  "best_model_checkpoint": "./checkpoints/zhongjing_7_26/checkpoint-100",
+  "epoch": 100.0,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 10.0,
+      "learning_rate": 9.755282581475769e-05,
+      "loss": 0.803,
+      "step": 10
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.6868318915367126,
+      "eval_runtime": 0.263,
+      "eval_samples_per_second": 26.615,
+      "eval_steps_per_second": 3.802,
+      "step": 10
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.5757,
+      "step": 20
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.5540383458137512,
+      "eval_runtime": 0.2628,
+      "eval_samples_per_second": 26.639,
+      "eval_steps_per_second": 3.806,
+      "step": 20
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.3858,
+      "step": 30
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 0.5853456854820251,
+      "eval_runtime": 0.2612,
+      "eval_samples_per_second": 26.799,
+      "eval_steps_per_second": 3.828,
+      "step": 30
+    },
+    {
+      "epoch": 40.0,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.2198,
+      "step": 40
+    },
+    {
+      "epoch": 40.0,
+      "eval_loss": 0.6874333620071411,
+      "eval_runtime": 0.2605,
+      "eval_samples_per_second": 26.873,
+      "eval_steps_per_second": 3.839,
+      "step": 40
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 5e-05,
+      "loss": 0.0973,
+      "step": 50
+    },
+    {
+      "epoch": 50.0,
+      "eval_loss": 0.8139681816101074,
+      "eval_runtime": 0.2601,
+      "eval_samples_per_second": 26.91,
+      "eval_steps_per_second": 3.844,
+      "step": 50
+    },
+    {
+      "epoch": 60.0,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.0398,
+      "step": 60
+    },
+    {
+      "epoch": 60.0,
+      "eval_loss": 0.9051175713539124,
+      "eval_runtime": 0.2596,
+      "eval_samples_per_second": 26.963,
+      "eval_steps_per_second": 3.852,
+      "step": 60
+    },
+    {
+      "epoch": 70.0,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.02,
+      "step": 70
+    },
+    {
+      "epoch": 70.0,
+      "eval_loss": 1.000623345375061,
+      "eval_runtime": 0.2584,
+      "eval_samples_per_second": 27.089,
+      "eval_steps_per_second": 3.87,
+      "step": 70
+    },
+    {
+      "epoch": 80.0,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 0.0135,
+      "step": 80
+    },
+    {
+      "epoch": 80.0,
+      "eval_loss": 1.0337673425674438,
+      "eval_runtime": 0.2607,
+      "eval_samples_per_second": 26.848,
+      "eval_steps_per_second": 3.835,
+      "step": 80
+    },
+    {
+      "epoch": 90.0,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 0.0115,
+      "step": 90
+    },
+    {
+      "epoch": 90.0,
+      "eval_loss": 1.0473424196243286,
+      "eval_runtime": 0.2628,
+      "eval_samples_per_second": 26.64,
+      "eval_steps_per_second": 3.806,
+      "step": 90
+    },
+    {
+      "epoch": 100.0,
+      "learning_rate": 0.0,
+      "loss": 0.0107,
+      "step": 100
+    },
+    {
+      "epoch": 100.0,
+      "eval_loss": 1.051451325416565,
+      "eval_runtime": 0.2626,
+      "eval_samples_per_second": 26.659,
+      "eval_steps_per_second": 3.808,
+      "step": 100
+    }
+  ],
+  "max_steps": 100,
+  "num_train_epochs": 100,
+  "total_flos": 8.61449315165184e+16,
+  "trial_name": null,
+  "trial_params": null
+}

zhongjing_7_26/checkpoint-100/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18dd2a9b9c5b2fbe298de025168c26d81ad8e13b46d3efa3b67d69d5707f54f6
+size 3389

zhongjing_7_26/description.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ 用于完成关于 zhongjing 自我认知的修改

zhongjing_7_26/eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 100.0,
+    "eval_loss": 1.051451325416565,
+    "eval_runtime": 0.2614,
+    "eval_samples_per_second": 26.783,
+    "eval_steps_per_second": 3.826
+}

zhongjing_7_26/finetuning_args.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "finetuning_type": "lora",
+  "lora_alpha": 32.0,
+  "lora_dropout": 0.1,
+  "lora_rank": 8,
+  "lora_target": [
+    "q_proj",
+    "v_proj"
+  ],
+  "name_module_trainable": "mlp",
+  "num_hidden_layers": 32,
+  "num_layer_trainable": 3
+}

zhongjing_7_26/train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 100.0,
+    "train_loss": 0.2177230092138052,
+    "train_runtime": 600.5927,
+    "train_samples_per_second": 8.991,
+    "train_steps_per_second": 0.167
+}

zhongjing_7_26/trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,10 @@

+{"current_steps": 10, "total_steps": 100, "loss": 0.803, "reward": null, "learning_rate": 9.755282581475769e-05, "epoch": 10.0, "percentage": 10.0, "elapsed_time": "0:01:09", "remaining_time": "0:10:21"}
+{"current_steps": 20, "total_steps": 100, "loss": 0.5757, "reward": null, "learning_rate": 9.045084971874738e-05, "epoch": 20.0, "percentage": 20.0, "elapsed_time": "0:02:08", "remaining_time": "0:08:35"}
+{"current_steps": 30, "total_steps": 100, "loss": 0.3858, "reward": null, "learning_rate": 7.938926261462366e-05, "epoch": 30.0, "percentage": 30.0, "elapsed_time": "0:03:09", "remaining_time": "0:07:21"}
+{"current_steps": 40, "total_steps": 100, "loss": 0.2198, "reward": null, "learning_rate": 6.545084971874738e-05, "epoch": 40.0, "percentage": 40.0, "elapsed_time": "0:04:09", "remaining_time": "0:06:13"}
+{"current_steps": 50, "total_steps": 100, "loss": 0.0973, "reward": null, "learning_rate": 5e-05, "epoch": 50.0, "percentage": 50.0, "elapsed_time": "0:05:08", "remaining_time": "0:05:08"}
+{"current_steps": 60, "total_steps": 100, "loss": 0.0398, "reward": null, "learning_rate": 3.4549150281252636e-05, "epoch": 60.0, "percentage": 60.0, "elapsed_time": "0:06:08", "remaining_time": "0:04:05"}
+{"current_steps": 70, "total_steps": 100, "loss": 0.02, "reward": null, "learning_rate": 2.061073738537635e-05, "epoch": 70.0, "percentage": 70.0, "elapsed_time": "0:07:08", "remaining_time": "0:03:03"}
+{"current_steps": 80, "total_steps": 100, "loss": 0.0135, "reward": null, "learning_rate": 9.549150281252633e-06, "epoch": 80.0, "percentage": 80.0, "elapsed_time": "0:08:08", "remaining_time": "0:02:02"}
+{"current_steps": 90, "total_steps": 100, "loss": 0.0115, "reward": null, "learning_rate": 2.4471741852423237e-06, "epoch": 90.0, "percentage": 90.0, "elapsed_time": "0:09:08", "remaining_time": "0:01:00"}
+{"current_steps": 100, "total_steps": 100, "loss": 0.0107, "reward": null, "learning_rate": 0.0, "epoch": 100.0, "percentage": 100.0, "elapsed_time": "0:10:08", "remaining_time": "0:00:00"}

zhongjing_7_26/trainer_state.json ADDED Viewed

	@@ -0,0 +1,165 @@

+{
+  "best_metric": 1.051451325416565,
+  "best_model_checkpoint": "./checkpoints/zhongjing_7_26/checkpoint-100",
+  "epoch": 100.0,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 10.0,
+      "learning_rate": 9.755282581475769e-05,
+      "loss": 0.803,
+      "step": 10
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.6868318915367126,
+      "eval_runtime": 0.263,
+      "eval_samples_per_second": 26.615,
+      "eval_steps_per_second": 3.802,
+      "step": 10
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.5757,
+      "step": 20
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.5540383458137512,
+      "eval_runtime": 0.2628,
+      "eval_samples_per_second": 26.639,
+      "eval_steps_per_second": 3.806,
+      "step": 20
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.3858,
+      "step": 30
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 0.5853456854820251,
+      "eval_runtime": 0.2612,
+      "eval_samples_per_second": 26.799,
+      "eval_steps_per_second": 3.828,
+      "step": 30
+    },
+    {
+      "epoch": 40.0,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.2198,
+      "step": 40
+    },
+    {
+      "epoch": 40.0,
+      "eval_loss": 0.6874333620071411,
+      "eval_runtime": 0.2605,
+      "eval_samples_per_second": 26.873,
+      "eval_steps_per_second": 3.839,
+      "step": 40
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 5e-05,
+      "loss": 0.0973,
+      "step": 50
+    },
+    {
+      "epoch": 50.0,
+      "eval_loss": 0.8139681816101074,
+      "eval_runtime": 0.2601,
+      "eval_samples_per_second": 26.91,
+      "eval_steps_per_second": 3.844,
+      "step": 50
+    },
+    {
+      "epoch": 60.0,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.0398,
+      "step": 60
+    },
+    {
+      "epoch": 60.0,
+      "eval_loss": 0.9051175713539124,
+      "eval_runtime": 0.2596,
+      "eval_samples_per_second": 26.963,
+      "eval_steps_per_second": 3.852,
+      "step": 60
+    },
+    {
+      "epoch": 70.0,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.02,
+      "step": 70
+    },
+    {
+      "epoch": 70.0,
+      "eval_loss": 1.000623345375061,
+      "eval_runtime": 0.2584,
+      "eval_samples_per_second": 27.089,
+      "eval_steps_per_second": 3.87,
+      "step": 70
+    },
+    {
+      "epoch": 80.0,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 0.0135,
+      "step": 80
+    },
+    {
+      "epoch": 80.0,
+      "eval_loss": 1.0337673425674438,
+      "eval_runtime": 0.2607,
+      "eval_samples_per_second": 26.848,
+      "eval_steps_per_second": 3.835,
+      "step": 80
+    },
+    {
+      "epoch": 90.0,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 0.0115,
+      "step": 90
+    },
+    {
+      "epoch": 90.0,
+      "eval_loss": 1.0473424196243286,
+      "eval_runtime": 0.2628,
+      "eval_samples_per_second": 26.64,
+      "eval_steps_per_second": 3.806,
+      "step": 90
+    },
+    {
+      "epoch": 100.0,
+      "learning_rate": 0.0,
+      "loss": 0.0107,
+      "step": 100
+    },
+    {
+      "epoch": 100.0,
+      "eval_loss": 1.051451325416565,
+      "eval_runtime": 0.2626,
+      "eval_samples_per_second": 26.659,
+      "eval_steps_per_second": 3.808,
+      "step": 100
+    },
+    {
+      "epoch": 100.0,
+      "step": 100,
+      "total_flos": 8.61449315165184e+16,
+      "train_loss": 0.2177230092138052,
+      "train_runtime": 600.5927,
+      "train_samples_per_second": 8.991,
+      "train_steps_per_second": 0.167
+    }
+  ],
+  "max_steps": 100,
+  "num_train_epochs": 100,
+  "total_flos": 8.61449315165184e+16,
+  "trial_name": null,
+  "trial_params": null
+}

zhongjing_7_26/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18dd2a9b9c5b2fbe298de025168c26d81ad8e13b46d3efa3b67d69d5707f54f6
+size 3389

zhongjing_7_26/training_eval_loss.png ADDED Viewed

zhongjing_7_26/training_loss.png ADDED Viewed