honnlp commited on
Commit
abacdab
1 Parent(s): 5f676fd

End of training

Browse files
all_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "epoch": 3.25,
3
- "eval_accuracy": 0.8451612903225807,
4
- "eval_loss": 0.36612647771835327,
5
- "eval_runtime": 44.7201,
6
- "eval_samples_per_second": 3.466,
7
- "eval_steps_per_second": 0.872
8
  }
 
1
  {
2
  "epoch": 3.25,
3
+ "eval_accuracy": 0.8838709677419355,
4
+ "eval_loss": 0.32161086797714233,
5
+ "eval_runtime": 41.5767,
6
+ "eval_samples_per_second": 3.728,
7
+ "eval_steps_per_second": 0.938
8
  }
runs/May11_05-13-35_416a2f8f7915/events.out.tfevents.1715405313.416a2f8f7915.5049.1 CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:017603fb785cb703282acd833994ba3544f7724afa620e59cde20d7d1d26f147
3
- size 411
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dc09be6f34e31993e456703751cccae8fed735ed751c319f10c9c1a43782e367
3
+ size 734
test_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "epoch": 3.25,
3
- "eval_accuracy": 0.8451612903225807,
4
- "eval_loss": 0.36612647771835327,
5
- "eval_runtime": 44.7201,
6
- "eval_samples_per_second": 3.466,
7
- "eval_steps_per_second": 0.872
8
  }
 
1
  {
2
  "epoch": 3.25,
3
+ "eval_accuracy": 0.8838709677419355,
4
+ "eval_loss": 0.32161086797714233,
5
+ "eval_runtime": 41.5767,
6
+ "eval_samples_per_second": 3.728,
7
+ "eval_steps_per_second": 0.938
8
  }
trainer_state.json CHANGED
@@ -1,6 +1,6 @@
1
  {
2
- "best_metric": 0.9285714285714286,
3
- "best_model_checkpoint": "videomae-base-finetuned-ucf101-subset/checkpoint-225",
4
  "epoch": 3.25,
5
  "eval_steps": 500,
6
  "global_step": 300,
@@ -10,275 +10,275 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.03333333333333333,
13
- "grad_norm": 10.09014892578125,
14
  "learning_rate": 1.6666666666666667e-05,
15
- "loss": 2.3797,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.06666666666666667,
20
- "grad_norm": 9.839759826660156,
21
  "learning_rate": 3.3333333333333335e-05,
22
- "loss": 2.2833,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.1,
27
- "grad_norm": 8.606062889099121,
28
  "learning_rate": 5e-05,
29
- "loss": 2.2797,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.13333333333333333,
34
- "grad_norm": 8.876961708068848,
35
  "learning_rate": 4.814814814814815e-05,
36
- "loss": 2.0507,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.16666666666666666,
41
- "grad_norm": 14.711962699890137,
42
  "learning_rate": 4.62962962962963e-05,
43
- "loss": 2.0574,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.2,
48
- "grad_norm": 10.008936882019043,
49
  "learning_rate": 4.4444444444444447e-05,
50
- "loss": 1.8826,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.23333333333333334,
55
- "grad_norm": 14.089128494262695,
56
  "learning_rate": 4.259259259259259e-05,
57
- "loss": 2.0257,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.25,
62
- "eval_accuracy": 0.6142857142857143,
63
- "eval_loss": 1.4213531017303467,
64
- "eval_runtime": 21.4927,
65
- "eval_samples_per_second": 3.257,
66
- "eval_steps_per_second": 0.837,
67
  "step": 75
68
  },
69
  {
70
  "epoch": 1.0166666666666666,
71
- "grad_norm": 11.685139656066895,
72
  "learning_rate": 4.074074074074074e-05,
73
- "loss": 1.4594,
74
  "step": 80
75
  },
76
  {
77
  "epoch": 1.05,
78
- "grad_norm": 15.033803939819336,
79
  "learning_rate": 3.888888888888889e-05,
80
- "loss": 1.324,
81
  "step": 90
82
  },
83
  {
84
  "epoch": 1.0833333333333333,
85
- "grad_norm": 10.9203462600708,
86
  "learning_rate": 3.7037037037037037e-05,
87
- "loss": 1.0948,
88
  "step": 100
89
  },
90
  {
91
  "epoch": 1.1166666666666667,
92
- "grad_norm": 5.745022296905518,
93
  "learning_rate": 3.518518518518519e-05,
94
- "loss": 0.8842,
95
  "step": 110
96
  },
97
  {
98
  "epoch": 1.15,
99
- "grad_norm": 9.993545532226562,
100
  "learning_rate": 3.3333333333333335e-05,
101
- "loss": 1.0636,
102
  "step": 120
103
  },
104
  {
105
  "epoch": 1.1833333333333333,
106
- "grad_norm": 17.138124465942383,
107
  "learning_rate": 3.148148148148148e-05,
108
- "loss": 0.6466,
109
  "step": 130
110
  },
111
  {
112
  "epoch": 1.2166666666666668,
113
- "grad_norm": 5.373832702636719,
114
  "learning_rate": 2.962962962962963e-05,
115
- "loss": 0.6253,
116
  "step": 140
117
  },
118
  {
119
  "epoch": 1.25,
120
- "grad_norm": 4.458014488220215,
121
  "learning_rate": 2.777777777777778e-05,
122
- "loss": 1.0258,
123
  "step": 150
124
  },
125
  {
126
  "epoch": 1.25,
127
  "eval_accuracy": 0.8,
128
- "eval_loss": 0.6301711797714233,
129
- "eval_runtime": 20.959,
130
- "eval_samples_per_second": 3.34,
131
- "eval_steps_per_second": 0.859,
132
  "step": 150
133
  },
134
  {
135
  "epoch": 2.033333333333333,
136
- "grad_norm": 10.006092071533203,
137
  "learning_rate": 2.5925925925925925e-05,
138
- "loss": 0.3082,
139
  "step": 160
140
  },
141
  {
142
  "epoch": 2.066666666666667,
143
- "grad_norm": 10.732275009155273,
144
  "learning_rate": 2.4074074074074074e-05,
145
- "loss": 0.5016,
146
  "step": 170
147
  },
148
  {
149
  "epoch": 2.1,
150
- "grad_norm": 6.761454105377197,
151
  "learning_rate": 2.2222222222222223e-05,
152
- "loss": 0.4114,
153
  "step": 180
154
  },
155
  {
156
  "epoch": 2.1333333333333333,
157
- "grad_norm": 2.822266101837158,
158
  "learning_rate": 2.037037037037037e-05,
159
- "loss": 0.4457,
160
  "step": 190
161
  },
162
  {
163
  "epoch": 2.1666666666666665,
164
- "grad_norm": 6.605894088745117,
165
  "learning_rate": 1.8518518518518518e-05,
166
- "loss": 0.4063,
167
  "step": 200
168
  },
169
  {
170
  "epoch": 2.2,
171
- "grad_norm": 18.81662940979004,
172
  "learning_rate": 1.6666666666666667e-05,
173
- "loss": 0.2629,
174
  "step": 210
175
  },
176
  {
177
  "epoch": 2.2333333333333334,
178
- "grad_norm": 5.214437484741211,
179
  "learning_rate": 1.4814814814814815e-05,
180
- "loss": 0.3566,
181
  "step": 220
182
  },
183
  {
184
  "epoch": 2.25,
185
- "eval_accuracy": 0.9285714285714286,
186
- "eval_loss": 0.31571879982948303,
187
- "eval_runtime": 21.9318,
188
- "eval_samples_per_second": 3.192,
189
- "eval_steps_per_second": 0.821,
190
  "step": 225
191
  },
192
  {
193
  "epoch": 3.0166666666666666,
194
- "grad_norm": 2.7175469398498535,
195
  "learning_rate": 1.2962962962962962e-05,
196
- "loss": 0.1894,
197
  "step": 230
198
  },
199
  {
200
  "epoch": 3.05,
201
- "grad_norm": 0.32148978114128113,
202
  "learning_rate": 1.1111111111111112e-05,
203
- "loss": 0.0987,
204
  "step": 240
205
  },
206
  {
207
  "epoch": 3.0833333333333335,
208
- "grad_norm": 10.567233085632324,
209
  "learning_rate": 9.259259259259259e-06,
210
- "loss": 0.3552,
211
  "step": 250
212
  },
213
  {
214
  "epoch": 3.1166666666666667,
215
- "grad_norm": 11.495248794555664,
216
  "learning_rate": 7.4074074074074075e-06,
217
- "loss": 0.148,
218
  "step": 260
219
  },
220
  {
221
  "epoch": 3.15,
222
- "grad_norm": 4.4286274909973145,
223
  "learning_rate": 5.555555555555556e-06,
224
- "loss": 0.209,
225
  "step": 270
226
  },
227
  {
228
  "epoch": 3.183333333333333,
229
- "grad_norm": 1.8519426584243774,
230
  "learning_rate": 3.7037037037037037e-06,
231
- "loss": 0.2113,
232
  "step": 280
233
  },
234
  {
235
  "epoch": 3.216666666666667,
236
- "grad_norm": 3.1793460845947266,
237
  "learning_rate": 1.8518518518518519e-06,
238
- "loss": 0.1944,
239
  "step": 290
240
  },
241
  {
242
  "epoch": 3.25,
243
- "grad_norm": 2.4581689834594727,
244
  "learning_rate": 0.0,
245
- "loss": 0.3042,
246
  "step": 300
247
  },
248
  {
249
  "epoch": 3.25,
250
- "eval_accuracy": 0.9285714285714286,
251
- "eval_loss": 0.21487949788570404,
252
- "eval_runtime": 20.1773,
253
- "eval_samples_per_second": 3.469,
254
- "eval_steps_per_second": 0.892,
255
  "step": 300
256
  },
257
  {
258
  "epoch": 3.25,
259
  "step": 300,
260
  "total_flos": 1.495384188125184e+18,
261
- "train_loss": 0.9161897947390875,
262
- "train_runtime": 840.6389,
263
- "train_samples_per_second": 1.427,
264
  "train_steps_per_second": 0.357
265
  },
266
  {
267
  "epoch": 3.25,
268
- "eval_accuracy": 0.8451612903225807,
269
- "eval_loss": 0.3661264479160309,
270
- "eval_runtime": 46.685,
271
- "eval_samples_per_second": 3.32,
272
- "eval_steps_per_second": 0.835,
273
  "step": 300
274
  },
275
  {
276
  "epoch": 3.25,
277
- "eval_accuracy": 0.8451612903225807,
278
- "eval_loss": 0.36612647771835327,
279
- "eval_runtime": 44.7201,
280
- "eval_samples_per_second": 3.466,
281
- "eval_steps_per_second": 0.872,
282
  "step": 300
283
  }
284
  ],
 
1
  {
2
+ "best_metric": 0.9,
3
+ "best_model_checkpoint": "videomae-base-finetuned-ucf101-subset/checkpoint-300",
4
  "epoch": 3.25,
5
  "eval_steps": 500,
6
  "global_step": 300,
 
10
  "log_history": [
11
  {
12
  "epoch": 0.03333333333333333,
13
+ "grad_norm": 9.844794273376465,
14
  "learning_rate": 1.6666666666666667e-05,
15
+ "loss": 2.3909,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.06666666666666667,
20
+ "grad_norm": 9.915998458862305,
21
  "learning_rate": 3.3333333333333335e-05,
22
+ "loss": 2.2975,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.1,
27
+ "grad_norm": 8.118914604187012,
28
  "learning_rate": 5e-05,
29
+ "loss": 2.1891,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.13333333333333333,
34
+ "grad_norm": 9.995659828186035,
35
  "learning_rate": 4.814814814814815e-05,
36
+ "loss": 2.1108,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.16666666666666666,
41
+ "grad_norm": 16.238676071166992,
42
  "learning_rate": 4.62962962962963e-05,
43
+ "loss": 2.0157,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.2,
48
+ "grad_norm": 11.459919929504395,
49
  "learning_rate": 4.4444444444444447e-05,
50
+ "loss": 1.786,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.23333333333333334,
55
+ "grad_norm": 16.957191467285156,
56
  "learning_rate": 4.259259259259259e-05,
57
+ "loss": 1.725,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.25,
62
+ "eval_accuracy": 0.5857142857142857,
63
+ "eval_loss": 1.4549747705459595,
64
+ "eval_runtime": 21.027,
65
+ "eval_samples_per_second": 3.329,
66
+ "eval_steps_per_second": 0.856,
67
  "step": 75
68
  },
69
  {
70
  "epoch": 1.0166666666666666,
71
+ "grad_norm": 10.220396041870117,
72
  "learning_rate": 4.074074074074074e-05,
73
+ "loss": 1.2715,
74
  "step": 80
75
  },
76
  {
77
  "epoch": 1.05,
78
+ "grad_norm": 15.53433895111084,
79
  "learning_rate": 3.888888888888889e-05,
80
+ "loss": 1.047,
81
  "step": 90
82
  },
83
  {
84
  "epoch": 1.0833333333333333,
85
+ "grad_norm": 12.676159858703613,
86
  "learning_rate": 3.7037037037037037e-05,
87
+ "loss": 0.9533,
88
  "step": 100
89
  },
90
  {
91
  "epoch": 1.1166666666666667,
92
+ "grad_norm": 7.9939775466918945,
93
  "learning_rate": 3.518518518518519e-05,
94
+ "loss": 0.7751,
95
  "step": 110
96
  },
97
  {
98
  "epoch": 1.15,
99
+ "grad_norm": 13.577326774597168,
100
  "learning_rate": 3.3333333333333335e-05,
101
+ "loss": 0.8486,
102
  "step": 120
103
  },
104
  {
105
  "epoch": 1.1833333333333333,
106
+ "grad_norm": 51.059608459472656,
107
  "learning_rate": 3.148148148148148e-05,
108
+ "loss": 0.5956,
109
  "step": 130
110
  },
111
  {
112
  "epoch": 1.2166666666666668,
113
+ "grad_norm": 24.287654876708984,
114
  "learning_rate": 2.962962962962963e-05,
115
+ "loss": 0.589,
116
  "step": 140
117
  },
118
  {
119
  "epoch": 1.25,
120
+ "grad_norm": 3.6437978744506836,
121
  "learning_rate": 2.777777777777778e-05,
122
+ "loss": 0.9129,
123
  "step": 150
124
  },
125
  {
126
  "epoch": 1.25,
127
  "eval_accuracy": 0.8,
128
+ "eval_loss": 0.6064983010292053,
129
+ "eval_runtime": 21.0746,
130
+ "eval_samples_per_second": 3.322,
131
+ "eval_steps_per_second": 0.854,
132
  "step": 150
133
  },
134
  {
135
  "epoch": 2.033333333333333,
136
+ "grad_norm": 19.478103637695312,
137
  "learning_rate": 2.5925925925925925e-05,
138
+ "loss": 0.3272,
139
  "step": 160
140
  },
141
  {
142
  "epoch": 2.066666666666667,
143
+ "grad_norm": 13.367619514465332,
144
  "learning_rate": 2.4074074074074074e-05,
145
+ "loss": 0.3867,
146
  "step": 170
147
  },
148
  {
149
  "epoch": 2.1,
150
+ "grad_norm": 4.753122806549072,
151
  "learning_rate": 2.2222222222222223e-05,
152
+ "loss": 0.4174,
153
  "step": 180
154
  },
155
  {
156
  "epoch": 2.1333333333333333,
157
+ "grad_norm": 8.704900741577148,
158
  "learning_rate": 2.037037037037037e-05,
159
+ "loss": 0.3808,
160
  "step": 190
161
  },
162
  {
163
  "epoch": 2.1666666666666665,
164
+ "grad_norm": 1.229836344718933,
165
  "learning_rate": 1.8518518518518518e-05,
166
+ "loss": 0.3201,
167
  "step": 200
168
  },
169
  {
170
  "epoch": 2.2,
171
+ "grad_norm": 22.796831130981445,
172
  "learning_rate": 1.6666666666666667e-05,
173
+ "loss": 0.2001,
174
  "step": 210
175
  },
176
  {
177
  "epoch": 2.2333333333333334,
178
+ "grad_norm": 3.456507682800293,
179
  "learning_rate": 1.4814814814814815e-05,
180
+ "loss": 0.2847,
181
  "step": 220
182
  },
183
  {
184
  "epoch": 2.25,
185
+ "eval_accuracy": 0.8428571428571429,
186
+ "eval_loss": 0.3711912930011749,
187
+ "eval_runtime": 21.6648,
188
+ "eval_samples_per_second": 3.231,
189
+ "eval_steps_per_second": 0.831,
190
  "step": 225
191
  },
192
  {
193
  "epoch": 3.0166666666666666,
194
+ "grad_norm": 0.6701892018318176,
195
  "learning_rate": 1.2962962962962962e-05,
196
+ "loss": 0.2751,
197
  "step": 230
198
  },
199
  {
200
  "epoch": 3.05,
201
+ "grad_norm": 0.3353921175003052,
202
  "learning_rate": 1.1111111111111112e-05,
203
+ "loss": 0.1312,
204
  "step": 240
205
  },
206
  {
207
  "epoch": 3.0833333333333335,
208
+ "grad_norm": 7.048470973968506,
209
  "learning_rate": 9.259259259259259e-06,
210
+ "loss": 0.1633,
211
  "step": 250
212
  },
213
  {
214
  "epoch": 3.1166666666666667,
215
+ "grad_norm": 0.83334881067276,
216
  "learning_rate": 7.4074074074074075e-06,
217
+ "loss": 0.0812,
218
  "step": 260
219
  },
220
  {
221
  "epoch": 3.15,
222
+ "grad_norm": 1.4199155569076538,
223
  "learning_rate": 5.555555555555556e-06,
224
+ "loss": 0.112,
225
  "step": 270
226
  },
227
  {
228
  "epoch": 3.183333333333333,
229
+ "grad_norm": 0.37524721026420593,
230
  "learning_rate": 3.7037037037037037e-06,
231
+ "loss": 0.1688,
232
  "step": 280
233
  },
234
  {
235
  "epoch": 3.216666666666667,
236
+ "grad_norm": 0.5031308531761169,
237
  "learning_rate": 1.8518518518518519e-06,
238
+ "loss": 0.1877,
239
  "step": 290
240
  },
241
  {
242
  "epoch": 3.25,
243
+ "grad_norm": 1.1433354616165161,
244
  "learning_rate": 0.0,
245
+ "loss": 0.1871,
246
  "step": 300
247
  },
248
  {
249
  "epoch": 3.25,
250
+ "eval_accuracy": 0.9,
251
+ "eval_loss": 0.2803722023963928,
252
+ "eval_runtime": 21.3881,
253
+ "eval_samples_per_second": 3.273,
254
+ "eval_steps_per_second": 0.842,
255
  "step": 300
256
  },
257
  {
258
  "epoch": 3.25,
259
  "step": 300,
260
  "total_flos": 1.495384188125184e+18,
261
+ "train_loss": 0.8377069818973542,
262
+ "train_runtime": 839.5336,
263
+ "train_samples_per_second": 1.429,
264
  "train_steps_per_second": 0.357
265
  },
266
  {
267
  "epoch": 3.25,
268
+ "eval_accuracy": 0.8838709677419355,
269
+ "eval_loss": 0.32161086797714233,
270
+ "eval_runtime": 44.5894,
271
+ "eval_samples_per_second": 3.476,
272
+ "eval_steps_per_second": 0.875,
273
  "step": 300
274
  },
275
  {
276
  "epoch": 3.25,
277
+ "eval_accuracy": 0.8838709677419355,
278
+ "eval_loss": 0.32161086797714233,
279
+ "eval_runtime": 41.5767,
280
+ "eval_samples_per_second": 3.728,
281
+ "eval_steps_per_second": 0.938,
282
  "step": 300
283
  }
284
  ],