Upload 9 files

Browse files

Files changed (9) hide show

README.md +80 -0
all_results.json +15 -0
eval_results.json +10 -0
runs/Mar15_13-45-15_srvgpu/1678888022.4053812/events.out.tfevents.1678888022.srvgpu.2934731.1 +3 -0
runs/Mar15_13-45-15_srvgpu/events.out.tfevents.1678888022.srvgpu.2934731.0 +3 -0
runs/Mar15_13-45-15_srvgpu/events.out.tfevents.1678893212.srvgpu.2934731.2 +3 -0
train_results.json +8 -0
trainer_state.json +211 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,80 @@

+---
+license: apache-2.0
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: output_v2
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# output_v2
+This model is a fine-tuned version of [avuhong/ParvoGPT2](https://huggingface.co/avuhong/ParvoGPT2) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.9835
+- Accuracy: 0.8502
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-05
+- train_batch_size: 1
+- eval_batch_size: 1
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 8
+- total_eval_batch_size: 2
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 16.0
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| No log        | 1.0   | 220  | 1.5038          | 0.7795   |
+| No log        | 2.0   | 440  | 1.3765          | 0.7965   |
+| 1.5308        | 3.0   | 660  | 1.2920          | 0.8075   |
+| 1.5308        | 4.0   | 880  | 1.2308          | 0.8156   |
+| 1.2695        | 5.0   | 1100 | 1.1788          | 0.8226   |
+| 1.2695        | 6.0   | 1320 | 1.1363          | 0.8279   |
+| 1.1353        | 7.0   | 1540 | 1.1027          | 0.8324   |
+| 1.1353        | 8.0   | 1760 | 1.0726          | 0.8373   |
+| 1.1353        | 9.0   | 1980 | 1.0481          | 0.8405   |
+| 1.0713        | 10.0  | 2200 | 1.0299          | 0.8433   |
+| 1.0713        | 11.0  | 2420 | 1.0174          | 0.8455   |
+| 1.0233        | 12.0  | 2640 | 1.0028          | 0.8477   |
+| 1.0233        | 13.0  | 2860 | 0.9939          | 0.8488   |
+| 0.9811        | 14.0  | 3080 | 0.9889          | 0.8497   |
+| 0.9811        | 15.0  | 3300 | 0.9854          | 0.8500   |
+| 0.9696        | 16.0  | 3520 | 0.9835          | 0.8502   |
+### Framework versions
+- Transformers 4.26.1
+- Pytorch 1.13.1+cu117
+- Datasets 2.9.0
+- Tokenizers 0.13.2

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 16.0,
+    "eval_accuracy": 0.8501928179347534,
+    "eval_loss": 0.9834597110748291,
+    "eval_runtime": 5.6916,
+    "eval_samples": 91,
+    "eval_samples_per_second": 15.988,
+    "eval_steps_per_second": 8.082,
+    "perplexity": 2.6736904553424052,
+    "train_loss": 1.138753395730799,
+    "train_runtime": 5180.444,
+    "train_samples": 1762,
+    "train_samples_per_second": 5.442,
+    "train_steps_per_second": 0.679
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 16.0,
+    "eval_accuracy": 0.8501928179347534,
+    "eval_loss": 0.9834597110748291,
+    "eval_runtime": 5.6916,
+    "eval_samples": 91,
+    "eval_samples_per_second": 15.988,
+    "eval_steps_per_second": 8.082,
+    "perplexity": 2.6736904553424052
+}

runs/Mar15_13-45-15_srvgpu/1678888022.4053812/events.out.tfevents.1678888022.srvgpu.2934731.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb55f0b56bd077ff05bb404073ebd9b700dd89e390c65875c76be8db2efb13d0
+size 5643

runs/Mar15_13-45-15_srvgpu/events.out.tfevents.1678888022.srvgpu.2934731.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e94e334f9383683ccb851b24b7d0580226cc0caaac8ba3538bf9bf50f5b36c96
+size 10687

runs/Mar15_13-45-15_srvgpu/events.out.tfevents.1678893212.srvgpu.2934731.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c51db3ea9acf866ec087ab9fcff153adbec9c9a44c135d80362fdf0dffdc70e
+size 363

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 16.0,
+    "train_loss": 1.138753395730799,
+    "train_runtime": 5180.444,
+    "train_samples": 1762,
+    "train_samples_per_second": 5.442,
+    "train_steps_per_second": 0.679
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,211 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 15.998864926220204,
+  "global_step": 3520,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7795322956613279,
+      "eval_loss": 1.5038145780563354,
+      "eval_runtime": 5.9639,
+      "eval_samples_per_second": 15.258,
+      "eval_steps_per_second": 7.713,
+      "step": 220
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7964938287518932,
+      "eval_loss": 1.3765002489089966,
+      "eval_runtime": 5.973,
+      "eval_samples_per_second": 15.235,
+      "eval_steps_per_second": 7.701,
+      "step": 440
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 8.579545454545455e-06,
+      "loss": 1.5308,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8075258075258075,
+      "eval_loss": 1.2920387983322144,
+      "eval_runtime": 5.9722,
+      "eval_samples_per_second": 15.237,
+      "eval_steps_per_second": 7.702,
+      "step": 660
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8155607833027188,
+      "eval_loss": 1.230821967124939,
+      "eval_runtime": 5.6615,
+      "eval_samples_per_second": 16.073,
+      "eval_steps_per_second": 8.125,
+      "step": 880
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 7.161931818181819e-06,
+      "loss": 1.2695,
+      "step": 1000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.8225860161344032,
+      "eval_loss": 1.1788371801376343,
+      "eval_runtime": 5.9852,
+      "eval_samples_per_second": 15.204,
+      "eval_steps_per_second": 7.686,
+      "step": 1100
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8278817956237311,
+      "eval_loss": 1.136326789855957,
+      "eval_runtime": 5.9723,
+      "eval_samples_per_second": 15.237,
+      "eval_steps_per_second": 7.702,
+      "step": 1320
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 5.741477272727272e-06,
+      "loss": 1.1353,
+      "step": 1500
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.8323826710923485,
+      "eval_loss": 1.102668285369873,
+      "eval_runtime": 5.9851,
+      "eval_samples_per_second": 15.204,
+      "eval_steps_per_second": 7.686,
+      "step": 1540
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8373239663562244,
+      "eval_loss": 1.072572112083435,
+      "eval_runtime": 5.9939,
+      "eval_samples_per_second": 15.182,
+      "eval_steps_per_second": 7.674,
+      "step": 1760
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.8404928404928405,
+      "eval_loss": 1.0481319427490234,
+      "eval_runtime": 5.9927,
+      "eval_samples_per_second": 15.185,
+      "eval_steps_per_second": 7.676,
+      "step": 1980
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 4.321022727272728e-06,
+      "loss": 1.0713,
+      "step": 2000
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.8432642626191014,
+      "eval_loss": 1.0299291610717773,
+      "eval_runtime": 5.6745,
+      "eval_samples_per_second": 16.037,
+      "eval_steps_per_second": 8.106,
+      "step": 2200
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.8455415552189746,
+      "eval_loss": 1.0174473524093628,
+      "eval_runtime": 5.9763,
+      "eval_samples_per_second": 15.227,
+      "eval_steps_per_second": 7.697,
+      "step": 2420
+    },
+    {
+      "epoch": 11.36,
+      "learning_rate": 2.900568181818182e-06,
+      "loss": 1.0233,
+      "step": 2500
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.8477006864103638,
+      "eval_loss": 1.0027512311935425,
+      "eval_runtime": 5.9881,
+      "eval_samples_per_second": 15.197,
+      "eval_steps_per_second": 7.682,
+      "step": 2640
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.8488178488178488,
+      "eval_loss": 0.9938735961914062,
+      "eval_runtime": 5.9759,
+      "eval_samples_per_second": 15.228,
+      "eval_steps_per_second": 7.698,
+      "step": 2860
+    },
+    {
+      "epoch": 13.64,
+      "learning_rate": 1.4829545454545454e-06,
+      "loss": 0.9811,
+      "step": 3000
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.8496772045159142,
+      "eval_loss": 0.9889363646507263,
+      "eval_runtime": 5.9819,
+      "eval_samples_per_second": 15.213,
+      "eval_steps_per_second": 7.69,
+      "step": 3080
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.8499779790102371,
+      "eval_loss": 0.9854440093040466,
+      "eval_runtime": 5.9887,
+      "eval_samples_per_second": 15.195,
+      "eval_steps_per_second": 7.681,
+      "step": 3300
+    },
+    {
+      "epoch": 15.91,
+      "learning_rate": 6.250000000000001e-08,
+      "loss": 0.9696,
+      "step": 3500
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.8501928179347534,
+      "eval_loss": 0.9834597110748291,
+      "eval_runtime": 5.978,
+      "eval_samples_per_second": 15.223,
+      "eval_steps_per_second": 7.695,
+      "step": 3520
+    },
+    {
+      "epoch": 16.0,
+      "step": 3520,
+      "total_flos": 1.2269276173959168e+17,
+      "train_loss": 1.138753395730799,
+      "train_runtime": 5180.444,
+      "train_samples_per_second": 5.442,
+      "train_steps_per_second": 0.679
+    }
+  ],
+  "max_steps": 3520,
+  "num_train_epochs": 16,
+  "total_flos": 1.2269276173959168e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d279c7dbc43acd518e710d89f64a4cc417adfa56edacc6d0708f9864295a4747
+size 3579