Training in progress, epoch 0

Browse files

Files changed (7) hide show

all_results.json +8 -0
model.safetensors +1 -1
runs/Apr24_19-09-46_e0d26c525230/events.out.tfevents.1713987155.e0d26c525230.685.1 +2 -2
runs/Apr24_19-56-38_e0d26c525230/events.out.tfevents.1713988636.e0d26c525230.685.2 +3 -0
test_results.json +8 -0
trainer_state.json +624 -0
training_args.bin +1 -1

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 14.044444444444444,
+    "eval_accuracy": 0.7948717948717948,
+    "eval_loss": 1.3669681549072266,
+    "eval_runtime": 15.6538,
+    "eval_samples_per_second": 2.491,
+    "eval_steps_per_second": 1.278
+}

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0613f585a1b9a6054a16ea967367bd423ca4f5d208463591468004493028a3bb
 size 344940444

 version https://git-lfs.github.com/spec/v1
+oid sha256:55667667e8df224b0a3746476db020d4d0683a0b73de70a4e27a360671061ca8
 size 344940444

runs/Apr24_19-09-46_e0d26c525230/events.out.tfevents.1713987155.e0d26c525230.685.1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:893e6638c0636064e7be6d7ad76a186f936a08a213a9a7091c70a6b6697b99ac
-size 411

 version https://git-lfs.github.com/spec/v1
+oid sha256:65ebcd04e3a848ac21a1bfb722d5244d1f4939efb04338bce171ff036493ec5f
+size 734

runs/Apr24_19-56-38_e0d26c525230/events.out.tfevents.1713988636.e0d26c525230.685.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2500dc365b725090a3a044884982aa61b6324b0ab2f5c3271f620d58ea0f6b07
+size 6207

test_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 14.044444444444444,
+    "eval_accuracy": 0.7948717948717948,
+    "eval_loss": 1.3669681549072266,
+    "eval_runtime": 15.6538,
+    "eval_samples_per_second": 2.491,
+    "eval_steps_per_second": 1.278
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,624 @@

+{
+  "best_metric": 0.8333333333333334,
+  "best_model_checkpoint": "videomae-base-ssbd-trim-yolo/checkpoint-344",
+  "epoch": 14.044444444444444,
+  "eval_steps": 500,
+  "global_step": 630,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.015873015873015872,
+      "grad_norm": 30.015491485595703,
+      "learning_rate": 7.936507936507936e-06,
+      "loss": 1.0764,
+      "step": 10
+    },
+    {
+      "epoch": 0.031746031746031744,
+      "grad_norm": 22.576404571533203,
+      "learning_rate": 1.5873015873015872e-05,
+      "loss": 1.1431,
+      "step": 20
+    },
+    {
+      "epoch": 0.047619047619047616,
+      "grad_norm": 20.933401107788086,
+      "learning_rate": 2.380952380952381e-05,
+      "loss": 1.106,
+      "step": 30
+    },
+    {
+      "epoch": 0.06349206349206349,
+      "grad_norm": 10.277111053466797,
+      "learning_rate": 3.1746031746031745e-05,
+      "loss": 0.9077,
+      "step": 40
+    },
+    {
+      "epoch": 0.06825396825396825,
+      "eval_accuracy": 0.5277777777777778,
+      "eval_loss": 1.1113542318344116,
+      "eval_runtime": 14.5432,
+      "eval_samples_per_second": 2.475,
+      "eval_steps_per_second": 1.238,
+      "step": 43
+    },
+    {
+      "epoch": 1.011111111111111,
+      "grad_norm": 15.602046012878418,
+      "learning_rate": 3.968253968253968e-05,
+      "loss": 1.2326,
+      "step": 50
+    },
+    {
+      "epoch": 1.0269841269841269,
+      "grad_norm": 13.100045204162598,
+      "learning_rate": 4.761904761904762e-05,
+      "loss": 1.0985,
+      "step": 60
+    },
+    {
+      "epoch": 1.042857142857143,
+      "grad_norm": 14.066707611083984,
+      "learning_rate": 4.938271604938271e-05,
+      "loss": 1.1182,
+      "step": 70
+    },
+    {
+      "epoch": 1.0587301587301587,
+      "grad_norm": 12.698005676269531,
+      "learning_rate": 4.850088183421517e-05,
+      "loss": 1.0662,
+      "step": 80
+    },
+    {
+      "epoch": 1.0682539682539682,
+      "eval_accuracy": 0.25,
+      "eval_loss": 1.4397388696670532,
+      "eval_runtime": 14.9962,
+      "eval_samples_per_second": 2.401,
+      "eval_steps_per_second": 1.2,
+      "step": 86
+    },
+    {
+      "epoch": 2.0063492063492063,
+      "grad_norm": 8.443410873413086,
+      "learning_rate": 4.761904761904762e-05,
+      "loss": 1.1849,
+      "step": 90
+    },
+    {
+      "epoch": 2.022222222222222,
+      "grad_norm": 29.700166702270508,
+      "learning_rate": 4.673721340388007e-05,
+      "loss": 0.8618,
+      "step": 100
+    },
+    {
+      "epoch": 2.038095238095238,
+      "grad_norm": 8.657772064208984,
+      "learning_rate": 4.585537918871252e-05,
+      "loss": 0.8981,
+      "step": 110
+    },
+    {
+      "epoch": 2.0539682539682538,
+      "grad_norm": 14.876176834106445,
+      "learning_rate": 4.4973544973544974e-05,
+      "loss": 0.7166,
+      "step": 120
+    },
+    {
+      "epoch": 2.0682539682539685,
+      "eval_accuracy": 0.5555555555555556,
+      "eval_loss": 1.1110920906066895,
+      "eval_runtime": 15.0737,
+      "eval_samples_per_second": 2.388,
+      "eval_steps_per_second": 1.194,
+      "step": 129
+    },
+    {
+      "epoch": 3.0015873015873016,
+      "grad_norm": 23.024181365966797,
+      "learning_rate": 4.409171075837743e-05,
+      "loss": 0.9402,
+      "step": 130
+    },
+    {
+      "epoch": 3.0174603174603174,
+      "grad_norm": 10.229450225830078,
+      "learning_rate": 4.3209876543209875e-05,
+      "loss": 0.9261,
+      "step": 140
+    },
+    {
+      "epoch": 3.033333333333333,
+      "grad_norm": 0.9213091135025024,
+      "learning_rate": 4.232804232804233e-05,
+      "loss": 0.73,
+      "step": 150
+    },
+    {
+      "epoch": 3.049206349206349,
+      "grad_norm": 6.072920322418213,
+      "learning_rate": 4.144620811287478e-05,
+      "loss": 1.2687,
+      "step": 160
+    },
+    {
+      "epoch": 3.0650793650793653,
+      "grad_norm": 15.582525253295898,
+      "learning_rate": 4.056437389770723e-05,
+      "loss": 0.5385,
+      "step": 170
+    },
+    {
+      "epoch": 3.0682539682539685,
+      "eval_accuracy": 0.6111111111111112,
+      "eval_loss": 1.46772301197052,
+      "eval_runtime": 16.2266,
+      "eval_samples_per_second": 2.219,
+      "eval_steps_per_second": 1.109,
+      "step": 172
+    },
+    {
+      "epoch": 4.012698412698413,
+      "grad_norm": 0.8077548742294312,
+      "learning_rate": 3.968253968253968e-05,
+      "loss": 1.1557,
+      "step": 180
+    },
+    {
+      "epoch": 4.0285714285714285,
+      "grad_norm": 0.7511183619499207,
+      "learning_rate": 3.8800705467372136e-05,
+      "loss": 0.7099,
+      "step": 190
+    },
+    {
+      "epoch": 4.044444444444444,
+      "grad_norm": 5.223026752471924,
+      "learning_rate": 3.791887125220458e-05,
+      "loss": 0.5282,
+      "step": 200
+    },
+    {
+      "epoch": 4.06031746031746,
+      "grad_norm": 8.660394668579102,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.5025,
+      "step": 210
+    },
+    {
+      "epoch": 4.068253968253968,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_loss": 1.3852248191833496,
+      "eval_runtime": 14.7477,
+      "eval_samples_per_second": 2.441,
+      "eval_steps_per_second": 1.221,
+      "step": 215
+    },
+    {
+      "epoch": 5.007936507936508,
+      "grad_norm": 0.08930220454931259,
+      "learning_rate": 3.615520282186949e-05,
+      "loss": 0.8413,
+      "step": 220
+    },
+    {
+      "epoch": 5.023809523809524,
+      "grad_norm": 12.50485610961914,
+      "learning_rate": 3.527336860670194e-05,
+      "loss": 0.3356,
+      "step": 230
+    },
+    {
+      "epoch": 5.0396825396825395,
+      "grad_norm": 1.2022631168365479,
+      "learning_rate": 3.439153439153439e-05,
+      "loss": 0.5643,
+      "step": 240
+    },
+    {
+      "epoch": 5.055555555555555,
+      "grad_norm": 0.06211042404174805,
+      "learning_rate": 3.3509700176366844e-05,
+      "loss": 0.8695,
+      "step": 250
+    },
+    {
+      "epoch": 5.068253968253968,
+      "eval_accuracy": 0.8055555555555556,
+      "eval_loss": 0.8737678527832031,
+      "eval_runtime": 15.6375,
+      "eval_samples_per_second": 2.302,
+      "eval_steps_per_second": 1.151,
+      "step": 258
+    },
+    {
+      "epoch": 6.003174603174603,
+      "grad_norm": 0.12375453114509583,
+      "learning_rate": 3.262786596119929e-05,
+      "loss": 0.0653,
+      "step": 260
+    },
+    {
+      "epoch": 6.019047619047619,
+      "grad_norm": 316.117919921875,
+      "learning_rate": 3.1746031746031745e-05,
+      "loss": 0.2375,
+      "step": 270
+    },
+    {
+      "epoch": 6.034920634920635,
+      "grad_norm": 248.5700225830078,
+      "learning_rate": 3.08641975308642e-05,
+      "loss": 0.7338,
+      "step": 280
+    },
+    {
+      "epoch": 6.050793650793651,
+      "grad_norm": 2.953540802001953,
+      "learning_rate": 2.998236331569665e-05,
+      "loss": 0.2325,
+      "step": 290
+    },
+    {
+      "epoch": 6.066666666666666,
+      "grad_norm": 0.8457281589508057,
+      "learning_rate": 2.91005291005291e-05,
+      "loss": 0.5152,
+      "step": 300
+    },
+    {
+      "epoch": 6.068253968253968,
+      "eval_accuracy": 0.6944444444444444,
+      "eval_loss": 1.6813074350357056,
+      "eval_runtime": 15.1352,
+      "eval_samples_per_second": 2.379,
+      "eval_steps_per_second": 1.189,
+      "step": 301
+    },
+    {
+      "epoch": 7.014285714285714,
+      "grad_norm": 0.029814492911100388,
+      "learning_rate": 2.8218694885361552e-05,
+      "loss": 0.4158,
+      "step": 310
+    },
+    {
+      "epoch": 7.03015873015873,
+      "grad_norm": 0.041262779384851456,
+      "learning_rate": 2.7336860670194003e-05,
+      "loss": 0.4212,
+      "step": 320
+    },
+    {
+      "epoch": 7.046031746031746,
+      "grad_norm": 107.87213134765625,
+      "learning_rate": 2.6455026455026456e-05,
+      "loss": 0.2547,
+      "step": 330
+    },
+    {
+      "epoch": 7.061904761904762,
+      "grad_norm": 0.03740064427256584,
+      "learning_rate": 2.5573192239858906e-05,
+      "loss": 0.1175,
+      "step": 340
+    },
+    {
+      "epoch": 7.068253968253968,
+      "eval_accuracy": 0.8333333333333334,
+      "eval_loss": 1.226004719734192,
+      "eval_runtime": 15.2787,
+      "eval_samples_per_second": 2.356,
+      "eval_steps_per_second": 1.178,
+      "step": 344
+    },
+    {
+      "epoch": 8.00952380952381,
+      "grad_norm": 0.02109268307685852,
+      "learning_rate": 2.4691358024691357e-05,
+      "loss": 0.0097,
+      "step": 350
+    },
+    {
+      "epoch": 8.025396825396825,
+      "grad_norm": 0.08379709720611572,
+      "learning_rate": 2.380952380952381e-05,
+      "loss": 0.0013,
+      "step": 360
+    },
+    {
+      "epoch": 8.041269841269841,
+      "grad_norm": 1.6022357940673828,
+      "learning_rate": 2.292768959435626e-05,
+      "loss": 0.3725,
+      "step": 370
+    },
+    {
+      "epoch": 8.057142857142857,
+      "grad_norm": 74.2785415649414,
+      "learning_rate": 2.2045855379188714e-05,
+      "loss": 0.5459,
+      "step": 380
+    },
+    {
+      "epoch": 8.068253968253968,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.5197035074234009,
+      "eval_runtime": 15.1279,
+      "eval_samples_per_second": 2.38,
+      "eval_steps_per_second": 1.19,
+      "step": 387
+    },
+    {
+      "epoch": 9.004761904761905,
+      "grad_norm": 0.024311769753694534,
+      "learning_rate": 2.1164021164021164e-05,
+      "loss": 0.2267,
+      "step": 390
+    },
+    {
+      "epoch": 9.02063492063492,
+      "grad_norm": 0.052084945142269135,
+      "learning_rate": 2.0282186948853614e-05,
+      "loss": 0.3809,
+      "step": 400
+    },
+    {
+      "epoch": 9.036507936507936,
+      "grad_norm": 88.70760345458984,
+      "learning_rate": 1.9400352733686068e-05,
+      "loss": 0.0571,
+      "step": 410
+    },
+    {
+      "epoch": 9.052380952380952,
+      "grad_norm": 0.028513841331005096,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.0024,
+      "step": 420
+    },
+    {
+      "epoch": 9.068253968253968,
+      "grad_norm": 378.1549072265625,
+      "learning_rate": 1.763668430335097e-05,
+      "loss": 0.0563,
+      "step": 430
+    },
+    {
+      "epoch": 9.068253968253968,
+      "eval_accuracy": 0.7222222222222222,
+      "eval_loss": 1.8295029401779175,
+      "eval_runtime": 15.283,
+      "eval_samples_per_second": 2.356,
+      "eval_steps_per_second": 1.178,
+      "step": 430
+    },
+    {
+      "epoch": 10.015873015873016,
+      "grad_norm": 0.03957889601588249,
+      "learning_rate": 1.6754850088183422e-05,
+      "loss": 0.0009,
+      "step": 440
+    },
+    {
+      "epoch": 10.031746031746032,
+      "grad_norm": 0.02481396682560444,
+      "learning_rate": 1.5873015873015872e-05,
+      "loss": 0.2516,
+      "step": 450
+    },
+    {
+      "epoch": 10.047619047619047,
+      "grad_norm": 0.0098341079428792,
+      "learning_rate": 1.4991181657848324e-05,
+      "loss": 0.0012,
+      "step": 460
+    },
+    {
+      "epoch": 10.063492063492063,
+      "grad_norm": 0.011684373952448368,
+      "learning_rate": 1.4109347442680776e-05,
+      "loss": 0.2366,
+      "step": 470
+    },
+    {
+      "epoch": 10.068253968253968,
+      "eval_accuracy": 0.7777777777777778,
+      "eval_loss": 1.277262806892395,
+      "eval_runtime": 15.161,
+      "eval_samples_per_second": 2.375,
+      "eval_steps_per_second": 1.187,
+      "step": 473
+    },
+    {
+      "epoch": 11.011111111111111,
+      "grad_norm": 0.07974599301815033,
+      "learning_rate": 1.3227513227513228e-05,
+      "loss": 0.2535,
+      "step": 480
+    },
+    {
+      "epoch": 11.026984126984127,
+      "grad_norm": 0.012509225867688656,
+      "learning_rate": 1.2345679012345678e-05,
+      "loss": 0.0955,
+      "step": 490
+    },
+    {
+      "epoch": 11.042857142857143,
+      "grad_norm": 0.019364865496754646,
+      "learning_rate": 1.146384479717813e-05,
+      "loss": 0.3646,
+      "step": 500
+    },
+    {
+      "epoch": 11.058730158730159,
+      "grad_norm": 0.011683164164423943,
+      "learning_rate": 1.0582010582010582e-05,
+      "loss": 0.0009,
+      "step": 510
+    },
+    {
+      "epoch": 11.068253968253968,
+      "eval_accuracy": 0.7777777777777778,
+      "eval_loss": 1.4972862005233765,
+      "eval_runtime": 15.1317,
+      "eval_samples_per_second": 2.379,
+      "eval_steps_per_second": 1.19,
+      "step": 516
+    },
+    {
+      "epoch": 12.006349206349206,
+      "grad_norm": 0.06486235558986664,
+      "learning_rate": 9.700176366843034e-06,
+      "loss": 0.0008,
+      "step": 520
+    },
+    {
+      "epoch": 12.022222222222222,
+      "grad_norm": 0.014630606397986412,
+      "learning_rate": 8.818342151675484e-06,
+      "loss": 0.0007,
+      "step": 530
+    },
+    {
+      "epoch": 12.038095238095238,
+      "grad_norm": 0.011189568787813187,
+      "learning_rate": 7.936507936507936e-06,
+      "loss": 0.0007,
+      "step": 540
+    },
+    {
+      "epoch": 12.053968253968254,
+      "grad_norm": 249.22251892089844,
+      "learning_rate": 7.054673721340388e-06,
+      "loss": 0.143,
+      "step": 550
+    },
+    {
+      "epoch": 12.068253968253968,
+      "eval_accuracy": 0.7777777777777778,
+      "eval_loss": 1.5192021131515503,
+      "eval_runtime": 12.5425,
+      "eval_samples_per_second": 2.87,
+      "eval_steps_per_second": 1.435,
+      "step": 559
+    },
+    {
+      "epoch": 13.001587301587302,
+      "grad_norm": 0.01595219597220421,
+      "learning_rate": 6.172839506172839e-06,
+      "loss": 0.5178,
+      "step": 560
+    },
+    {
+      "epoch": 13.017460317460317,
+      "grad_norm": 0.036659013479948044,
+      "learning_rate": 5.291005291005291e-06,
+      "loss": 0.0018,
+      "step": 570
+    },
+    {
+      "epoch": 13.033333333333333,
+      "grad_norm": 196.40771484375,
+      "learning_rate": 4.409171075837742e-06,
+      "loss": 0.0321,
+      "step": 580
+    },
+    {
+      "epoch": 13.049206349206349,
+      "grad_norm": 0.029025763273239136,
+      "learning_rate": 3.527336860670194e-06,
+      "loss": 0.2369,
+      "step": 590
+    },
+    {
+      "epoch": 13.065079365079365,
+      "grad_norm": 1.3874189853668213,
+      "learning_rate": 2.6455026455026455e-06,
+      "loss": 0.0016,
+      "step": 600
+    },
+    {
+      "epoch": 13.068253968253968,
+      "eval_accuracy": 0.7222222222222222,
+      "eval_loss": 1.863442301750183,
+      "eval_runtime": 12.833,
+      "eval_samples_per_second": 2.805,
+      "eval_steps_per_second": 1.403,
+      "step": 602
+    },
+    {
+      "epoch": 14.012698412698413,
+      "grad_norm": 0.008897276595234871,
+      "learning_rate": 1.763668430335097e-06,
+      "loss": 0.0009,
+      "step": 610
+    },
+    {
+      "epoch": 14.028571428571428,
+      "grad_norm": 0.016890566796064377,
+      "learning_rate": 8.818342151675485e-07,
+      "loss": 0.0915,
+      "step": 620
+    },
+    {
+      "epoch": 14.044444444444444,
+      "grad_norm": 0.010226339101791382,
+      "learning_rate": 0.0,
+      "loss": 0.0185,
+      "step": 630
+    },
+    {
+      "epoch": 14.044444444444444,
+      "eval_accuracy": 0.7222222222222222,
+      "eval_loss": 1.8942972421646118,
+      "eval_runtime": 13.2569,
+      "eval_samples_per_second": 2.716,
+      "eval_steps_per_second": 1.358,
+      "step": 630
+    },
+    {
+      "epoch": 14.044444444444444,
+      "step": 630,
+      "total_flos": 1.5526103247553167e+18,
+      "train_loss": 0.4637793370005157,
+      "train_runtime": 1134.0988,
+      "train_samples_per_second": 1.111,
+      "train_steps_per_second": 0.556
+    },
+    {
+      "epoch": 14.044444444444444,
+      "eval_accuracy": 0.7948717948717948,
+      "eval_loss": 1.3669681549072266,
+      "eval_runtime": 16.5385,
+      "eval_samples_per_second": 2.358,
+      "eval_steps_per_second": 1.209,
+      "step": 630
+    },
+    {
+      "epoch": 14.044444444444444,
+      "eval_accuracy": 0.7948717948717948,
+      "eval_loss": 1.3669681549072266,
+      "eval_runtime": 15.6538,
+      "eval_samples_per_second": 2.491,
+      "eval_steps_per_second": 1.278,
+      "step": 630
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 630,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9223372036854775807,
+  "save_steps": 500,
+  "total_flos": 1.5526103247553167e+18,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5301002e204eae138e34ab0a10367829f0f1a27cf8716c81e4db2f7a25dafe20
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:684b691e14f4b7b649a6119f7f58e6e04c7625ce4f12c09dc593cfac0494bde8
 size 5048