Tianjiao-Yu commited on Feb 21

Commit

58ac5f7

•

1 Parent(s): 9e966de

End of training

Browse files

Files changed (22) hide show

README.md +40 -36
all_results.json +6 -6
config.json +30 -22
model.safetensors +2 -2
runs/Feb20_14-50-43_plan.cs.vt.edu/events.out.tfevents.1708469451.plan.cs.vt.edu.3543922.0 +3 -0
runs/Feb20_14-50-43_plan.cs.vt.edu/events.out.tfevents.1708469726.plan.cs.vt.edu.3543922.1 +3 -0
runs/Feb20_14-57-12_plan.cs.vt.edu/events.out.tfevents.1708469850.plan.cs.vt.edu.3569885.0 +3 -0
runs/Feb20_15-18-42_plan.cs.vt.edu/events.out.tfevents.1708471132.plan.cs.vt.edu.3569885.1 +3 -0
runs/Feb20_15-19-55_plan.cs.vt.edu/events.out.tfevents.1708471203.plan.cs.vt.edu.3569885.2 +3 -0
runs/Feb20_15-20-55_plan.cs.vt.edu/events.out.tfevents.1708471262.plan.cs.vt.edu.3569885.3 +3 -0
runs/Feb20_15-21-34_plan.cs.vt.edu/events.out.tfevents.1708471299.plan.cs.vt.edu.3569885.4 +3 -0
runs/Feb20_15-49-17_plan.cs.vt.edu/events.out.tfevents.1708472959.plan.cs.vt.edu.3697382.0 +3 -0
runs/Feb20_15-52-57_plan.cs.vt.edu/events.out.tfevents.1708473184.plan.cs.vt.edu.3697382.1 +3 -0
runs/Feb20_15-54-37_plan.cs.vt.edu/events.out.tfevents.1708473283.plan.cs.vt.edu.3697382.2 +3 -0
runs/Feb20_16-41-48_plan.cs.vt.edu/events.out.tfevents.1708476123.plan.cs.vt.edu.3697382.3 +3 -0
runs/Feb20_16-42-29_plan.cs.vt.edu/events.out.tfevents.1708476167.plan.cs.vt.edu.3697382.4 +3 -0
runs/Feb20_16-49-13_plan.cs.vt.edu/events.out.tfevents.1708476554.plan.cs.vt.edu.3697382.5 +3 -0
runs/Feb20_16-49-46_plan.cs.vt.edu/events.out.tfevents.1708476591.plan.cs.vt.edu.3697382.6 +3 -0
runs/Feb20_16-49-46_plan.cs.vt.edu/events.out.tfevents.1708477852.plan.cs.vt.edu.3697382.7 +3 -0
test_results.json +6 -6
trainer_state.json +418 -316
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 tags:
 - generated_from_trainer
 metrics:
@@ -13,10 +15,10 @@ should probably proofread and complete it, then remove this comment. -->
 # videomae-large
-This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0993
-- Accuracy: 0.9742
 ## Model description
@@ -36,48 +38,50 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
-- train_batch_size: 32
-- eval_batch_size: 32
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- training_steps: 300
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 2.3203        | 0.03  | 10   | 2.1994          | 0.1571   |
-| 1.9795        | 1.03  | 20   | 1.7835          | 0.3429   |
-| 1.0467        | 2.03  | 30   | 0.7311          | 0.6571   |
-| 0.301         | 3.03  | 40   | 0.2195          | 0.9429   |
-| 0.1061        | 4.03  | 50   | 0.1529          | 0.9143   |
-| 0.0499        | 5.03  | 60   | 0.0826          | 0.9857   |
-| 0.079         | 6.03  | 70   | 0.0534          | 0.9857   |
-| 0.0487        | 7.03  | 80   | 0.0299          | 0.9857   |
-| 0.0217        | 8.03  | 90   | 0.3283          | 0.9      |
-| 0.0387        | 9.03  | 100  | 0.0268          | 0.9857   |
-| 0.0252        | 10.03 | 110  | 0.0386          | 0.9857   |
-| 0.0324        | 11.03 | 120  | 0.3067          | 0.9      |
-| 0.0022        | 12.03 | 130  | 0.0131          | 1.0      |
-| 0.0115        | 13.03 | 140  | 0.0889          | 0.9857   |
-| 0.0225        | 14.03 | 150  | 0.0091          | 1.0      |
-| 0.0012        | 15.03 | 160  | 0.0081          | 1.0      |
-| 0.001         | 16.03 | 170  | 0.0103          | 1.0      |
-| 0.0255        | 17.03 | 180  | 0.0113          | 1.0      |
-| 0.0016        | 18.03 | 190  | 0.0252          | 0.9857   |
-| 0.0039        | 19.03 | 200  | 0.0177          | 0.9857   |
-| 0.0007        | 20.03 | 210  | 0.0017          | 1.0      |
-| 0.0006        | 21.03 | 220  | 0.0013          | 1.0      |
-| 0.0006        | 22.03 | 230  | 0.0012          | 1.0      |
-| 0.0007        | 23.03 | 240  | 0.0011          | 1.0      |
-| 0.0005        | 24.03 | 250  | 0.0011          | 1.0      |
-| 0.0005        | 25.03 | 260  | 0.0011          | 1.0      |
-| 0.0005        | 26.03 | 270  | 0.0011          | 1.0      |
-| 0.0005        | 27.03 | 280  | 0.0011          | 1.0      |
-| 0.0005        | 28.03 | 290  | 0.0011          | 1.0      |
-| 0.0005        | 29.03 | 300  | 0.0011          | 1.0      |
 ### Framework versions

 ---
+license: cc-by-nc-4.0
+base_model: MCG-NJU/videomae-large-finetuned-kinetics
 tags:
 - generated_from_trainer
 metrics:
 # videomae-large
+This model is a fine-tuned version of [MCG-NJU/videomae-large-finetuned-kinetics](https://huggingface.co/MCG-NJU/videomae-large-finetuned-kinetics) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.5042
+- Accuracy: 0.4286
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
+- train_batch_size: 16
+- eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- training_steps: 220
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 2.6619        | 0.03  | 7    | 2.7017          | 0.0      |
+| 2.6232        | 1.03  | 14   | 2.6628          | 0.0      |
+| 2.381         | 2.03  | 21   | 2.5798          | 0.1667   |
+| 2.2215        | 3.03  | 28   | 2.4757          | 0.1667   |
+| 1.7389        | 4.03  | 35   | 2.3636          | 0.2333   |
+| 1.3366        | 5.03  | 42   | 2.2424          | 0.3      |
+| 1.1946        | 6.03  | 49   | 2.1675          | 0.3      |
+| 0.6809        | 7.03  | 56   | 2.0548          | 0.3667   |
+| 0.5255        | 8.03  | 63   | 2.0410          | 0.4      |
+| 0.3285        | 9.03  | 70   | 1.9539          | 0.4      |
+| 0.2849        | 10.03 | 77   | 1.8536          | 0.4667   |
+| 0.1832        | 11.03 | 84   | 1.8293          | 0.4333   |
+| 0.1307        | 12.03 | 91   | 1.8200          | 0.4      |
+| 0.0901        | 13.03 | 98   | 1.8355          | 0.4      |
+| 0.0636        | 14.03 | 105  | 1.8201          | 0.4333   |
+| 0.0413        | 15.03 | 112  | 1.7750          | 0.4667   |
+| 0.0427        | 16.03 | 119  | 1.7460          | 0.5333   |
+| 0.0254        | 17.03 | 126  | 1.7804          | 0.5333   |
+| 0.0203        | 18.03 | 133  | 1.8869          | 0.4333   |
+| 0.0174        | 19.03 | 140  | 1.7741          | 0.5667   |
+| 0.0154        | 20.03 | 147  | 1.7401          | 0.5333   |
+| 0.0136        | 21.03 | 154  | 1.7672          | 0.5      |
+| 0.0116        | 22.03 | 161  | 1.7793          | 0.5333   |
+| 0.0123        | 23.03 | 168  | 1.8018          | 0.4667   |
+| 0.0102        | 24.03 | 175  | 1.8024          | 0.5      |
+| 0.0103        | 25.03 | 182  | 1.8058          | 0.5      |
+| 0.0089        | 26.03 | 189  | 1.8106          | 0.5      |
+| 0.0088        | 27.03 | 196  | 1.8029          | 0.5      |
+| 0.0092        | 28.03 | 203  | 1.7961          | 0.5      |
+| 0.0083        | 29.03 | 210  | 1.7940          | 0.5      |
+| 0.0099        | 30.03 | 217  | 1.7922          | 0.5      |
+| 0.0085        | 31.01 | 220  | 1.7920          | 0.5      |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 29.03,
-    "eval_accuracy": 0.9741935483870968,
-    "eval_loss": 0.09928672015666962,
-    "eval_runtime": 13.0498,
-    "eval_samples_per_second": 11.878,
-    "eval_steps_per_second": 0.383
 }

 {
+    "epoch": 31.01,
+    "eval_accuracy": 0.42857142857142855,
+    "eval_loss": 1.504156231880188,
+    "eval_runtime": 2.2938,
+    "eval_samples_per_second": 6.104,
+    "eval_steps_per_second": 0.436
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "MCG-NJU/videomae-large",
   "architectures": [
     "VideoMAEForVideoClassification"
   ],
@@ -12,31 +12,39 @@
   "hidden_dropout_prob": 0.0,
   "hidden_size": 1024,
   "id2label": {
-    "0": "ApplyEyeMakeup",
-    "1": "ApplyLipstick",
-    "2": "Archery",
-    "3": "BabyCrawling",
-    "4": "BalanceBeam",
-    "5": "BandMarching",
-    "6": "BaseballPitch",
-    "7": "Basketball",
-    "8": "BasketballDunk",
-    "9": "BenchPress"
   },
   "image_size": 224,
   "initializer_range": 0.02,
   "intermediate_size": 4096,
   "label2id": {
-    "ApplyEyeMakeup": 0,
-    "ApplyLipstick": 1,
-    "Archery": 2,
-    "BabyCrawling": 3,
-    "BalanceBeam": 4,
-    "BandMarching": 5,
-    "BaseballPitch": 6,
-    "Basketball": 7,
-    "BasketballDunk": 8,
-    "BenchPress": 9
   },
   "layer_norm_eps": 1e-12,
   "model_type": "videomae",
@@ -51,5 +59,5 @@
   "torch_dtype": "float32",
   "transformers_version": "4.37.2",
   "tubelet_size": 2,
-  "use_mean_pooling": false
 }

 {
+  "_name_or_path": "MCG-NJU/videomae-large-finetuned-kinetics",
   "architectures": [
     "VideoMAEForVideoClassification"
   ],
   "hidden_dropout_prob": 0.0,
   "hidden_size": 1024,
   "id2label": {
+    "0": "climb",
+    "1": "crawl",
+    "2": "grasp",
+    "3": "hiding",
+    "4": "jump",
+    "5": "pick up",
+    "6": "pull",
+    "7": "push",
+    "8": "put down",
+    "9": "roll",
+    "10": "running",
+    "11": "slide",
+    "12": "walking",
+    "13": "zibaroon"
   },
   "image_size": 224,
   "initializer_range": 0.02,
   "intermediate_size": 4096,
   "label2id": {
+    "climb": 0,
+    "crawl": 1,
+    "grasp": 2,
+    "hiding": 3,
+    "jump": 4,
+    "pick up": 5,
+    "pull": 6,
+    "push": 7,
+    "put down": 8,
+    "roll": 9,
+    "running": 10,
+    "slide": 11,
+    "walking": 12,
+    "zibaroon": 13
   },
   "layer_norm_eps": 1e-12,
   "model_type": "videomae",
   "torch_dtype": "float32",
   "transformers_version": "4.37.2",
   "tubelet_size": 2,
+  "use_mean_pooling": true
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8f784d5e79a9b4421e39993c18671489940fd7d36ff370e75ffa6cc83706838
-size 1215529056

 version https://git-lfs.github.com/spec/v1
+oid sha256:6699c065fd187ca3510c6f854530949fe1a0fb8ca23b46262e967099572e5b07
+size 1215545408

runs/Feb20_14-50-43_plan.cs.vt.edu/events.out.tfevents.1708469451.plan.cs.vt.edu.3543922.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43c0590daa12c802f4fbd7a642eff30ad07498cf04a73e68ad0e4cdc43b9b090
+size 7974

runs/Feb20_14-50-43_plan.cs.vt.edu/events.out.tfevents.1708469726.plan.cs.vt.edu.3543922.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:640213db4fe4008ca9a6d4c1d31af408cabc120fa3ebfbf3c4a76e8c5d1dd81e
+size 405

runs/Feb20_14-57-12_plan.cs.vt.edu/events.out.tfevents.1708469850.plan.cs.vt.edu.3569885.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1913e300bd7725c4aee313c4e56326cb9d4a41615ec5efbe09b0da162d18b2f1
+size 17240

runs/Feb20_15-18-42_plan.cs.vt.edu/events.out.tfevents.1708471132.plan.cs.vt.edu.3569885.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc38f52209a4f52c900bd7c44160fcbff23ddbff1e26b0ed556fc2d5fddf1677
+size 5098

runs/Feb20_15-19-55_plan.cs.vt.edu/events.out.tfevents.1708471203.plan.cs.vt.edu.3569885.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca35aa06a66c9f289a90569ddff96b03dad1b6b22a6420d6f240b3b1d611fd1c
+size 5098

runs/Feb20_15-20-55_plan.cs.vt.edu/events.out.tfevents.1708471262.plan.cs.vt.edu.3569885.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7dcc59d8afec032a73bdb632bc6e6f9c61d89c3a486377592935e9fe4883539d
+size 5038

runs/Feb20_15-21-34_plan.cs.vt.edu/events.out.tfevents.1708471299.plan.cs.vt.edu.3569885.4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e05a10eb291cc84cc4f4f52a7416f14c55b419548fcaa661a215f09e5eef7812
+size 20198

runs/Feb20_15-49-17_plan.cs.vt.edu/events.out.tfevents.1708472959.plan.cs.vt.edu.3697382.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10957846cb7f2c0af0a8d18d5d4ab869cbf591c8ffdf139c94245aedd7c9890e
+size 5067

runs/Feb20_15-52-57_plan.cs.vt.edu/events.out.tfevents.1708473184.plan.cs.vt.edu.3697382.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81f27ba231d80a65a24706a979eb5aa9d852449ce9f2006225e11f27555e1a08
+size 5116

runs/Feb20_15-54-37_plan.cs.vt.edu/events.out.tfevents.1708473283.plan.cs.vt.edu.3697382.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d56fd9a2804f59e4f63066b24e75f61b1fe8357335f9676c8c70844feab690a4
+size 22531

runs/Feb20_16-41-48_plan.cs.vt.edu/events.out.tfevents.1708476123.plan.cs.vt.edu.3697382.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d56bfc0cf7cf6a99eeb5ad550b898600384890e08744f468c2f7bc6b7f16236d
+size 346

runs/Feb20_16-42-29_plan.cs.vt.edu/events.out.tfevents.1708476167.plan.cs.vt.edu.3697382.4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0634219e6e9c583cb9b2d9ba2dab584bb8ab664f632d8c3d77360468e86b8f07
+size 15172

runs/Feb20_16-49-13_plan.cs.vt.edu/events.out.tfevents.1708476554.plan.cs.vt.edu.3697382.5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d2268931e4164e0e77e63e1c142777578c78de76043e1a2b93ba2742272cb3a
+size 5068

runs/Feb20_16-49-46_plan.cs.vt.edu/events.out.tfevents.1708476591.plan.cs.vt.edu.3697382.6 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f046b4a37f5f59784fd5f956981984eb5c3f9442da4a05ba47ea603f6be6f774
+size 22532

runs/Feb20_16-49-46_plan.cs.vt.edu/events.out.tfevents.1708477852.plan.cs.vt.edu.3697382.7 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58f713a0ad5eb7c555067fef62196245e31bb4a68d52309b425b41bddbf23130
+size 734

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 29.03,
-    "eval_accuracy": 0.9741935483870968,
-    "eval_loss": 0.09928672015666962,
-    "eval_runtime": 13.0498,
-    "eval_samples_per_second": 11.878,
-    "eval_steps_per_second": 0.383
 }

 {
+    "epoch": 31.01,
+    "eval_accuracy": 0.42857142857142855,
+    "eval_loss": 1.504156231880188,
+    "eval_runtime": 2.2938,
+    "eval_samples_per_second": 6.104,
+    "eval_steps_per_second": 0.436
 }

trainer_state.json CHANGED Viewed

@@ -1,498 +1,600 @@
 {
-  "best_metric": 1.0,
-  "best_model_checkpoint": "MCG-NJU/videomae-large/checkpoint-130",
-  "epoch": 29.033333333333335,
   "eval_steps": 500,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 2.3203,
-      "step": 10
     },
     {
       "epoch": 0.03,
-      "eval_accuracy": 0.15714285714285714,
-      "eval_loss": 2.199398994445801,
-      "eval_runtime": 5.6646,
-      "eval_samples_per_second": 12.357,
-      "eval_steps_per_second": 0.53,
       "step": 10
     },
     {
       "epoch": 1.03,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 1.9795,
-      "step": 20
     },
     {
-      "epoch": 1.03,
-      "eval_accuracy": 0.34285714285714286,
-      "eval_loss": 1.7835056781768799,
-      "eval_runtime": 6.2612,
-      "eval_samples_per_second": 11.18,
-      "eval_steps_per_second": 0.479,
-      "step": 20
     },
     {
       "epoch": 2.03,
-      "learning_rate": 5e-05,
-      "loss": 1.0467,
-      "step": 30
     },
     {
       "epoch": 2.03,
-      "eval_accuracy": 0.6571428571428571,
-      "eval_loss": 0.7310971617698669,
-      "eval_runtime": 6.125,
-      "eval_samples_per_second": 11.429,
-      "eval_steps_per_second": 0.49,
-      "step": 30
     },
     {
-      "epoch": 3.03,
-      "learning_rate": 4.814814814814815e-05,
-      "loss": 0.301,
-      "step": 40
     },
     {
       "epoch": 3.03,
-      "eval_accuracy": 0.9428571428571428,
-      "eval_loss": 0.21951383352279663,
-      "eval_runtime": 5.975,
-      "eval_samples_per_second": 11.715,
-      "eval_steps_per_second": 0.502,
-      "step": 40
     },
     {
       "epoch": 4.03,
-      "learning_rate": 4.62962962962963e-05,
-      "loss": 0.1061,
-      "step": 50
     },
     {
       "epoch": 4.03,
-      "eval_accuracy": 0.9142857142857143,
-      "eval_loss": 0.15290319919586182,
-      "eval_runtime": 6.6932,
-      "eval_samples_per_second": 10.458,
-      "eval_steps_per_second": 0.448,
-      "step": 50
     },
     {
-      "epoch": 5.03,
-      "learning_rate": 4.4444444444444447e-05,
-      "loss": 0.0499,
-      "step": 60
     },
     {
       "epoch": 5.03,
-      "eval_accuracy": 0.9857142857142858,
-      "eval_loss": 0.08257948607206345,
-      "eval_runtime": 6.8638,
-      "eval_samples_per_second": 10.198,
-      "eval_steps_per_second": 0.437,
-      "step": 60
     },
     {
-      "epoch": 6.03,
-      "learning_rate": 4.259259259259259e-05,
-      "loss": 0.079,
-      "step": 70
     },
     {
       "epoch": 6.03,
-      "eval_accuracy": 0.9857142857142858,
-      "eval_loss": 0.05339507758617401,
-      "eval_runtime": 5.6428,
-      "eval_samples_per_second": 12.405,
-      "eval_steps_per_second": 0.532,
-      "step": 70
     },
     {
       "epoch": 7.03,
-      "learning_rate": 4.074074074074074e-05,
-      "loss": 0.0487,
-      "step": 80
     },
     {
       "epoch": 7.03,
-      "eval_accuracy": 0.9857142857142858,
-      "eval_loss": 0.02986798621714115,
-      "eval_runtime": 5.2266,
-      "eval_samples_per_second": 13.393,
-      "eval_steps_per_second": 0.574,
-      "step": 80
     },
     {
-      "epoch": 8.03,
-      "learning_rate": 3.888888888888889e-05,
-      "loss": 0.0217,
-      "step": 90
     },
     {
       "epoch": 8.03,
-      "eval_accuracy": 0.9,
-      "eval_loss": 0.32826170325279236,
-      "eval_runtime": 6.6113,
-      "eval_samples_per_second": 10.588,
-      "eval_steps_per_second": 0.454,
-      "step": 90
     },
     {
       "epoch": 9.03,
-      "learning_rate": 3.7037037037037037e-05,
-      "loss": 0.0387,
-      "step": 100
     },
     {
       "epoch": 9.03,
-      "eval_accuracy": 0.9857142857142858,
-      "eval_loss": 0.026779260486364365,
-      "eval_runtime": 6.3515,
-      "eval_samples_per_second": 11.021,
-      "eval_steps_per_second": 0.472,
-      "step": 100
     },
     {
-      "epoch": 10.03,
-      "learning_rate": 3.518518518518519e-05,
-      "loss": 0.0252,
-      "step": 110
     },
     {
       "epoch": 10.03,
-      "eval_accuracy": 0.9857142857142858,
-      "eval_loss": 0.03859327733516693,
-      "eval_runtime": 6.9316,
-      "eval_samples_per_second": 10.099,
-      "eval_steps_per_second": 0.433,
-      "step": 110
     },
     {
-      "epoch": 11.03,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.0324,
-      "step": 120
     },
     {
       "epoch": 11.03,
-      "eval_accuracy": 0.9,
-      "eval_loss": 0.3067415654659271,
-      "eval_runtime": 5.7803,
-      "eval_samples_per_second": 12.11,
-      "eval_steps_per_second": 0.519,
-      "step": 120
     },
     {
       "epoch": 12.03,
-      "learning_rate": 3.148148148148148e-05,
-      "loss": 0.0022,
-      "step": 130
     },
     {
       "epoch": 12.03,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.013092391192913055,
-      "eval_runtime": 5.2039,
-      "eval_samples_per_second": 13.451,
-      "eval_steps_per_second": 0.576,
-      "step": 130
     },
     {
-      "epoch": 13.03,
-      "learning_rate": 2.962962962962963e-05,
-      "loss": 0.0115,
-      "step": 140
     },
     {
       "epoch": 13.03,
-      "eval_accuracy": 0.9857142857142858,
-      "eval_loss": 0.08892710506916046,
-      "eval_runtime": 4.8696,
-      "eval_samples_per_second": 14.375,
-      "eval_steps_per_second": 0.616,
-      "step": 140
     },
     {
       "epoch": 14.03,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.0225,
-      "step": 150
     },
     {
       "epoch": 14.03,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.009070915170013905,
-      "eval_runtime": 6.0016,
-      "eval_samples_per_second": 11.663,
-      "eval_steps_per_second": 0.5,
-      "step": 150
     },
     {
-      "epoch": 15.03,
-      "learning_rate": 2.5925925925925925e-05,
-      "loss": 0.0012,
-      "step": 160
     },
     {
       "epoch": 15.03,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.008068457245826721,
-      "eval_runtime": 5.6404,
-      "eval_samples_per_second": 12.411,
-      "eval_steps_per_second": 0.532,
-      "step": 160
     },
     {
-      "epoch": 16.03,
-      "learning_rate": 2.4074074074074074e-05,
-      "loss": 0.001,
-      "step": 170
     },
     {
       "epoch": 16.03,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.010284548625349998,
-      "eval_runtime": 5.7893,
-      "eval_samples_per_second": 12.091,
-      "eval_steps_per_second": 0.518,
-      "step": 170
     },
     {
       "epoch": 17.03,
-      "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.0255,
-      "step": 180
     },
     {
       "epoch": 17.03,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.01131558045744896,
-      "eval_runtime": 6.4736,
-      "eval_samples_per_second": 10.813,
-      "eval_steps_per_second": 0.463,
-      "step": 180
     },
     {
-      "epoch": 18.03,
-      "learning_rate": 2.037037037037037e-05,
-      "loss": 0.0016,
-      "step": 190
     },
     {
       "epoch": 18.03,
-      "eval_accuracy": 0.9857142857142858,
-      "eval_loss": 0.025160381570458412,
-      "eval_runtime": 5.7118,
-      "eval_samples_per_second": 12.255,
-      "eval_steps_per_second": 0.525,
-      "step": 190
     },
     {
       "epoch": 19.03,
-      "learning_rate": 1.8518518518518518e-05,
-      "loss": 0.0039,
-      "step": 200
     },
     {
       "epoch": 19.03,
-      "eval_accuracy": 0.9857142857142858,
-      "eval_loss": 0.017666514962911606,
-      "eval_runtime": 5.7688,
-      "eval_samples_per_second": 12.134,
-      "eval_steps_per_second": 0.52,
-      "step": 200
     },
     {
-      "epoch": 20.03,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.0007,
-      "step": 210
     },
     {
       "epoch": 20.03,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0016855127178132534,
-      "eval_runtime": 5.9439,
-      "eval_samples_per_second": 11.777,
-      "eval_steps_per_second": 0.505,
-      "step": 210
     },
     {
-      "epoch": 21.03,
-      "learning_rate": 1.4814814814814815e-05,
-      "loss": 0.0006,
-      "step": 220
     },
     {
       "epoch": 21.03,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.00132262974511832,
-      "eval_runtime": 6.2152,
-      "eval_samples_per_second": 11.263,
-      "eval_steps_per_second": 0.483,
-      "step": 220
     },
     {
       "epoch": 22.03,
-      "learning_rate": 1.2962962962962962e-05,
-      "loss": 0.0006,
-      "step": 230
     },
     {
       "epoch": 22.03,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0012219419004395604,
-      "eval_runtime": 5.788,
-      "eval_samples_per_second": 12.094,
-      "eval_steps_per_second": 0.518,
-      "step": 230
     },
     {
-      "epoch": 23.03,
-      "learning_rate": 1.1111111111111112e-05,
-      "loss": 0.0007,
-      "step": 240
     },
     {
       "epoch": 23.03,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.001058029243722558,
-      "eval_runtime": 6.1445,
-      "eval_samples_per_second": 11.392,
-      "eval_steps_per_second": 0.488,
-      "step": 240
     },
     {
       "epoch": 24.03,
-      "learning_rate": 9.259259259259259e-06,
-      "loss": 0.0005,
-      "step": 250
     },
     {
       "epoch": 24.03,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0010857696179300547,
-      "eval_runtime": 6.974,
-      "eval_samples_per_second": 10.037,
-      "eval_steps_per_second": 0.43,
-      "step": 250
     },
     {
-      "epoch": 25.03,
-      "learning_rate": 7.4074074074074075e-06,
-      "loss": 0.0005,
-      "step": 260
     },
     {
       "epoch": 25.03,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0010956026380881667,
-      "eval_runtime": 5.6397,
-      "eval_samples_per_second": 12.412,
-      "eval_steps_per_second": 0.532,
-      "step": 260
     },
     {
-      "epoch": 26.03,
-      "learning_rate": 5.555555555555556e-06,
-      "loss": 0.0005,
-      "step": 270
     },
     {
       "epoch": 26.03,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0010995334014296532,
-      "eval_runtime": 5.1379,
-      "eval_samples_per_second": 13.624,
-      "eval_steps_per_second": 0.584,
-      "step": 270
     },
     {
       "epoch": 27.03,
-      "learning_rate": 3.7037037037037037e-06,
-      "loss": 0.0005,
-      "step": 280
     },
     {
       "epoch": 27.03,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0010933494195342064,
-      "eval_runtime": 5.5747,
-      "eval_samples_per_second": 12.557,
-      "eval_steps_per_second": 0.538,
-      "step": 280
     },
     {
-      "epoch": 28.03,
-      "learning_rate": 1.8518518518518519e-06,
-      "loss": 0.0005,
-      "step": 290
     },
     {
       "epoch": 28.03,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0010898270411416888,
-      "eval_runtime": 5.3602,
-      "eval_samples_per_second": 13.059,
-      "eval_steps_per_second": 0.56,
-      "step": 290
     },
     {
-      "epoch": 29.03,
-      "learning_rate": 0.0,
-      "loss": 0.0005,
-      "step": 300
     },
     {
       "epoch": 29.03,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.0010924884118139744,
-      "eval_runtime": 6.1154,
-      "eval_samples_per_second": 11.447,
-      "eval_steps_per_second": 0.491,
-      "step": 300
     },
     {
       "epoch": 29.03,
-      "step": 300,
-      "total_flos": 3.952030329844531e+19,
-      "train_loss": 0.2041329901261876,
-      "train_runtime": 1416.8695,
-      "train_samples_per_second": 6.776,
-      "train_steps_per_second": 0.212
     },
     {
-      "epoch": 29.03,
-      "eval_accuracy": 0.9741935483870968,
-      "eval_loss": 0.09911247342824936,
-      "eval_runtime": 16.8335,
-      "eval_samples_per_second": 9.208,
-      "eval_steps_per_second": 0.297,
-      "step": 300
     },
     {
-      "epoch": 29.03,
-      "eval_accuracy": 0.9741935483870968,
-      "eval_loss": 0.09928672015666962,
-      "eval_runtime": 13.0498,
-      "eval_samples_per_second": 11.878,
-      "eval_steps_per_second": 0.383,
-      "step": 300
     }
   ],
-  "logging_steps": 10,
-  "max_steps": 300,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
-  "total_flos": 3.952030329844531e+19,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.5666666666666667,
+  "best_model_checkpoint": "MCG-NJU/videomae-large/checkpoint-140",
+  "epoch": 31.013636363636362,
   "eval_steps": 500,
+  "global_step": 220,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.02,
+      "learning_rate": 1.1363636363636365e-05,
+      "loss": 2.6619,
+      "step": 5
     },
     {
       "epoch": 0.03,
+      "eval_accuracy": 0.0,
+      "eval_loss": 2.7016749382019043,
+      "eval_runtime": 5.569,
+      "eval_samples_per_second": 5.387,
+      "eval_steps_per_second": 0.359,
+      "step": 7
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 2.272727272727273e-05,
+      "loss": 2.6232,
       "step": 10
     },
     {
       "epoch": 1.03,
+      "eval_accuracy": 0.0,
+      "eval_loss": 2.6628258228302,
+      "eval_runtime": 5.363,
+      "eval_samples_per_second": 5.594,
+      "eval_steps_per_second": 0.373,
+      "step": 14
     },
     {
+      "epoch": 2.0,
+      "learning_rate": 3.409090909090909e-05,
+      "loss": 2.5419,
+      "step": 15
     },
     {
       "epoch": 2.03,
+      "learning_rate": 4.545454545454546e-05,
+      "loss": 2.381,
+      "step": 20
     },
     {
       "epoch": 2.03,
+      "eval_accuracy": 0.16666666666666666,
+      "eval_loss": 2.5797576904296875,
+      "eval_runtime": 5.6099,
+      "eval_samples_per_second": 5.348,
+      "eval_steps_per_second": 0.357,
+      "step": 21
     },
     {
+      "epoch": 3.02,
+      "learning_rate": 4.9242424242424245e-05,
+      "loss": 2.2215,
+      "step": 25
     },
     {
       "epoch": 3.03,
+      "eval_accuracy": 0.16666666666666666,
+      "eval_loss": 2.4757392406463623,
+      "eval_runtime": 5.5008,
+      "eval_samples_per_second": 5.454,
+      "eval_steps_per_second": 0.364,
+      "step": 28
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 4.797979797979798e-05,
+      "loss": 1.8738,
+      "step": 30
     },
     {
       "epoch": 4.03,
+      "learning_rate": 4.671717171717172e-05,
+      "loss": 1.7389,
+      "step": 35
     },
     {
       "epoch": 4.03,
+      "eval_accuracy": 0.23333333333333334,
+      "eval_loss": 2.363579511642456,
+      "eval_runtime": 6.4613,
+      "eval_samples_per_second": 4.643,
+      "eval_steps_per_second": 0.31,
+      "step": 35
     },
     {
+      "epoch": 5.02,
+      "learning_rate": 4.545454545454546e-05,
+      "loss": 1.3366,
+      "step": 40
     },
     {
       "epoch": 5.03,
+      "eval_accuracy": 0.3,
+      "eval_loss": 2.2424137592315674,
+      "eval_runtime": 5.7626,
+      "eval_samples_per_second": 5.206,
+      "eval_steps_per_second": 0.347,
+      "step": 42
     },
     {
+      "epoch": 6.01,
+      "learning_rate": 4.41919191919192e-05,
+      "loss": 1.1946,
+      "step": 45
     },
     {
       "epoch": 6.03,
+      "eval_accuracy": 0.3,
+      "eval_loss": 2.167524814605713,
+      "eval_runtime": 5.8137,
+      "eval_samples_per_second": 5.16,
+      "eval_steps_per_second": 0.344,
+      "step": 49
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 4.292929292929293e-05,
+      "loss": 0.8832,
+      "step": 50
     },
     {
       "epoch": 7.03,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.6809,
+      "step": 55
     },
     {
       "epoch": 7.03,
+      "eval_accuracy": 0.36666666666666664,
+      "eval_loss": 2.0548174381256104,
+      "eval_runtime": 5.6032,
+      "eval_samples_per_second": 5.354,
+      "eval_steps_per_second": 0.357,
+      "step": 56
     },
     {
+      "epoch": 8.02,
+      "learning_rate": 4.0404040404040405e-05,
+      "loss": 0.5255,
+      "step": 60
     },
     {
       "epoch": 8.03,
+      "eval_accuracy": 0.4,
+      "eval_loss": 2.0410492420196533,
+      "eval_runtime": 5.8803,
+      "eval_samples_per_second": 5.102,
+      "eval_steps_per_second": 0.34,
+      "step": 63
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 3.9141414141414145e-05,
+      "loss": 0.4759,
+      "step": 65
     },
     {
       "epoch": 9.03,
+      "learning_rate": 3.787878787878788e-05,
+      "loss": 0.3285,
+      "step": 70
     },
     {
       "epoch": 9.03,
+      "eval_accuracy": 0.4,
+      "eval_loss": 1.9539462327957153,
+      "eval_runtime": 6.0204,
+      "eval_samples_per_second": 4.983,
+      "eval_steps_per_second": 0.332,
+      "step": 70
     },
     {
+      "epoch": 10.02,
+      "learning_rate": 3.661616161616162e-05,
+      "loss": 0.2849,
+      "step": 75
     },
     {
       "epoch": 10.03,
+      "eval_accuracy": 0.4666666666666667,
+      "eval_loss": 1.8536347150802612,
+      "eval_runtime": 5.2379,
+      "eval_samples_per_second": 5.727,
+      "eval_steps_per_second": 0.382,
+      "step": 77
     },
     {
+      "epoch": 11.01,
+      "learning_rate": 3.535353535353535e-05,
+      "loss": 0.1832,
+      "step": 80
     },
     {
       "epoch": 11.03,
+      "eval_accuracy": 0.43333333333333335,
+      "eval_loss": 1.8293204307556152,
+      "eval_runtime": 5.7575,
+      "eval_samples_per_second": 5.211,
+      "eval_steps_per_second": 0.347,
+      "step": 84
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 3.409090909090909e-05,
+      "loss": 0.1485,
+      "step": 85
     },
     {
       "epoch": 12.03,
+      "learning_rate": 3.282828282828283e-05,
+      "loss": 0.1307,
+      "step": 90
     },
     {
       "epoch": 12.03,
+      "eval_accuracy": 0.4,
+      "eval_loss": 1.8200174570083618,
+      "eval_runtime": 5.6546,
+      "eval_samples_per_second": 5.305,
+      "eval_steps_per_second": 0.354,
+      "step": 91
     },
     {
+      "epoch": 13.02,
+      "learning_rate": 3.1565656565656566e-05,
+      "loss": 0.0901,
+      "step": 95
     },
     {
       "epoch": 13.03,
+      "eval_accuracy": 0.4,
+      "eval_loss": 1.8354666233062744,
+      "eval_runtime": 5.7638,
+      "eval_samples_per_second": 5.205,
+      "eval_steps_per_second": 0.347,
+      "step": 98
+    },
+    {
+      "epoch": 14.01,
+      "learning_rate": 3.0303030303030306e-05,
+      "loss": 0.0757,
+      "step": 100
     },
     {
       "epoch": 14.03,
+      "learning_rate": 2.904040404040404e-05,
+      "loss": 0.0636,
+      "step": 105
     },
     {
       "epoch": 14.03,
+      "eval_accuracy": 0.43333333333333335,
+      "eval_loss": 1.8200985193252563,
+      "eval_runtime": 5.0989,
+      "eval_samples_per_second": 5.884,
+      "eval_steps_per_second": 0.392,
+      "step": 105
     },
     {
+      "epoch": 15.02,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.0413,
+      "step": 110
     },
     {
       "epoch": 15.03,
+      "eval_accuracy": 0.4666666666666667,
+      "eval_loss": 1.7749541997909546,
+      "eval_runtime": 5.2291,
+      "eval_samples_per_second": 5.737,
+      "eval_steps_per_second": 0.382,
+      "step": 112
     },
     {
+      "epoch": 16.01,
+      "learning_rate": 2.6515151515151516e-05,
+      "loss": 0.0427,
+      "step": 115
     },
     {
       "epoch": 16.03,
+      "eval_accuracy": 0.5333333333333333,
+      "eval_loss": 1.745997667312622,
+      "eval_runtime": 5.2765,
+      "eval_samples_per_second": 5.686,
+      "eval_steps_per_second": 0.379,
+      "step": 119
+    },
+    {
+      "epoch": 17.0,
+      "learning_rate": 2.5252525252525256e-05,
+      "loss": 0.0369,
+      "step": 120
     },
     {
       "epoch": 17.03,
+      "learning_rate": 2.398989898989899e-05,
+      "loss": 0.0254,
+      "step": 125
     },
     {
       "epoch": 17.03,
+      "eval_accuracy": 0.5333333333333333,
+      "eval_loss": 1.7804018259048462,
+      "eval_runtime": 5.5848,
+      "eval_samples_per_second": 5.372,
+      "eval_steps_per_second": 0.358,
+      "step": 126
     },
     {
+      "epoch": 18.02,
+      "learning_rate": 2.272727272727273e-05,
+      "loss": 0.0203,
+      "step": 130
     },
     {
       "epoch": 18.03,
+      "eval_accuracy": 0.43333333333333335,
+      "eval_loss": 1.8868685960769653,
+      "eval_runtime": 5.6579,
+      "eval_samples_per_second": 5.302,
+      "eval_steps_per_second": 0.353,
+      "step": 133
+    },
+    {
+      "epoch": 19.01,
+      "learning_rate": 2.1464646464646466e-05,
+      "loss": 0.0231,
+      "step": 135
     },
     {
       "epoch": 19.03,
+      "learning_rate": 2.0202020202020203e-05,
+      "loss": 0.0174,
+      "step": 140
     },
     {
       "epoch": 19.03,
+      "eval_accuracy": 0.5666666666666667,
+      "eval_loss": 1.7740839719772339,
+      "eval_runtime": 5.4112,
+      "eval_samples_per_second": 5.544,
+      "eval_steps_per_second": 0.37,
+      "step": 140
     },
     {
+      "epoch": 20.02,
+      "learning_rate": 1.893939393939394e-05,
+      "loss": 0.0154,
+      "step": 145
     },
     {
       "epoch": 20.03,
+      "eval_accuracy": 0.5333333333333333,
+      "eval_loss": 1.7400553226470947,
+      "eval_runtime": 5.673,
+      "eval_samples_per_second": 5.288,
+      "eval_steps_per_second": 0.353,
+      "step": 147
     },
     {
+      "epoch": 21.01,
+      "learning_rate": 1.7676767676767676e-05,
+      "loss": 0.0136,
+      "step": 150
     },
     {
       "epoch": 21.03,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.7672396898269653,
+      "eval_runtime": 5.5489,
+      "eval_samples_per_second": 5.406,
+      "eval_steps_per_second": 0.36,
+      "step": 154
+    },
+    {
+      "epoch": 22.0,
+      "learning_rate": 1.6414141414141416e-05,
+      "loss": 0.0123,
+      "step": 155
     },
     {
       "epoch": 22.03,
+      "learning_rate": 1.5151515151515153e-05,
+      "loss": 0.0116,
+      "step": 160
     },
     {
       "epoch": 22.03,
+      "eval_accuracy": 0.5333333333333333,
+      "eval_loss": 1.7792834043502808,
+      "eval_runtime": 5.7051,
+      "eval_samples_per_second": 5.258,
+      "eval_steps_per_second": 0.351,
+      "step": 161
     },
     {
+      "epoch": 23.02,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.0123,
+      "step": 165
     },
     {
       "epoch": 23.03,
+      "eval_accuracy": 0.4666666666666667,
+      "eval_loss": 1.8018161058425903,
+      "eval_runtime": 5.5773,
+      "eval_samples_per_second": 5.379,
+      "eval_steps_per_second": 0.359,
+      "step": 168
+    },
+    {
+      "epoch": 24.01,
+      "learning_rate": 1.2626262626262628e-05,
+      "loss": 0.0093,
+      "step": 170
     },
     {
       "epoch": 24.03,
+      "learning_rate": 1.1363636363636365e-05,
+      "loss": 0.0102,
+      "step": 175
     },
     {
       "epoch": 24.03,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.8023875951766968,
+      "eval_runtime": 5.4661,
+      "eval_samples_per_second": 5.488,
+      "eval_steps_per_second": 0.366,
+      "step": 175
     },
     {
+      "epoch": 25.02,
+      "learning_rate": 1.0101010101010101e-05,
+      "loss": 0.0103,
+      "step": 180
     },
     {
       "epoch": 25.03,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.8057912588119507,
+      "eval_runtime": 5.5758,
+      "eval_samples_per_second": 5.38,
+      "eval_steps_per_second": 0.359,
+      "step": 182
     },
     {
+      "epoch": 26.01,
+      "learning_rate": 8.838383838383838e-06,
+      "loss": 0.0089,
+      "step": 185
     },
     {
       "epoch": 26.03,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.810552954673767,
+      "eval_runtime": 5.6149,
+      "eval_samples_per_second": 5.343,
+      "eval_steps_per_second": 0.356,
+      "step": 189
+    },
+    {
+      "epoch": 27.0,
+      "learning_rate": 7.5757575757575764e-06,
+      "loss": 0.009,
+      "step": 190
     },
     {
       "epoch": 27.03,
+      "learning_rate": 6.313131313131314e-06,
+      "loss": 0.0088,
+      "step": 195
     },
     {
       "epoch": 27.03,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.8028618097305298,
+      "eval_runtime": 5.3559,
+      "eval_samples_per_second": 5.601,
+      "eval_steps_per_second": 0.373,
+      "step": 196
     },
     {
+      "epoch": 28.02,
+      "learning_rate": 5.050505050505051e-06,
+      "loss": 0.0092,
+      "step": 200
     },
     {
       "epoch": 28.03,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.7960565090179443,
+      "eval_runtime": 5.2538,
+      "eval_samples_per_second": 5.71,
+      "eval_steps_per_second": 0.381,
+      "step": 203
     },
     {
+      "epoch": 29.01,
+      "learning_rate": 3.7878787878787882e-06,
+      "loss": 0.0082,
+      "step": 205
     },
     {
       "epoch": 29.03,
+      "learning_rate": 2.5252525252525253e-06,
+      "loss": 0.0083,
+      "step": 210
     },
     {
       "epoch": 29.03,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.7939893007278442,
+      "eval_runtime": 5.0992,
+      "eval_samples_per_second": 5.883,
+      "eval_steps_per_second": 0.392,
+      "step": 210
     },
     {
+      "epoch": 30.02,
+      "learning_rate": 1.2626262626262627e-06,
+      "loss": 0.0099,
+      "step": 215
     },
     {
+      "epoch": 30.03,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.7922049760818481,
+      "eval_runtime": 5.3556,
+      "eval_samples_per_second": 5.602,
+      "eval_steps_per_second": 0.373,
+      "step": 217
+    },
+    {
+      "epoch": 31.01,
+      "learning_rate": 0.0,
+      "loss": 0.0085,
+      "step": 220
+    },
+    {
+      "epoch": 31.01,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.7919764518737793,
+      "eval_runtime": 5.1737,
+      "eval_samples_per_second": 5.799,
+      "eval_steps_per_second": 0.387,
+      "step": 220
+    },
+    {
+      "epoch": 31.01,
+      "step": 220,
+      "total_flos": 1.5320910961010737e+19,
+      "train_loss": 0.5185655888847329,
+      "train_runtime": 1238.2272,
+      "train_samples_per_second": 2.843,
+      "train_steps_per_second": 0.178
+    },
+    {
+      "epoch": 31.01,
+      "eval_accuracy": 0.42857142857142855,
+      "eval_loss": 1.504156231880188,
+      "eval_runtime": 2.3481,
+      "eval_samples_per_second": 5.962,
+      "eval_steps_per_second": 0.426,
+      "step": 220
+    },
+    {
+      "epoch": 31.01,
+      "eval_accuracy": 0.42857142857142855,
+      "eval_loss": 1.504156231880188,
+      "eval_runtime": 2.2938,
+      "eval_samples_per_second": 6.104,
+      "eval_steps_per_second": 0.436,
+      "step": 220
     }
   ],
+  "logging_steps": 5,
+  "max_steps": 220,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
+  "total_flos": 1.5320910961010737e+19,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3454bc7aa261c0482f31475bec6bc2ac80d03b78757742a3642beabe3f48f8f2
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c4ef8e9fe8d9207ef60f4ef95e43a78337eeb8ead430b1b5a800c027fd54c2d
 size 4728