Frikallo commited on
Commit
0750e33
1 Parent(s): 3d215e2

End of training

Browse files
Files changed (3) hide show
  1. all_results.json +4 -4
  2. train_results.json +4 -4
  3. trainer_state.json +52 -52
all_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "epoch": 1.0,
3
- "train_loss": 0.8386777694026629,
4
- "train_runtime": 64.3008,
5
  "train_samples": 240,
6
- "train_samples_per_second": 3.732,
7
- "train_steps_per_second": 3.732
8
  }
 
1
  {
2
  "epoch": 1.0,
3
+ "train_loss": 0.8587130382657051,
4
+ "train_runtime": 63.93,
5
  "train_samples": 240,
6
+ "train_samples_per_second": 3.754,
7
+ "train_steps_per_second": 3.754
8
  }
train_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "epoch": 1.0,
3
- "train_loss": 0.8386777694026629,
4
- "train_runtime": 64.3008,
5
  "train_samples": 240,
6
- "train_samples_per_second": 3.732,
7
- "train_steps_per_second": 3.732
8
  }
 
1
  {
2
  "epoch": 1.0,
3
+ "train_loss": 0.8587130382657051,
4
+ "train_runtime": 63.93,
5
  "train_samples": 240,
6
+ "train_samples_per_second": 3.754,
7
+ "train_steps_per_second": 3.754
8
  }
trainer_state.json CHANGED
@@ -10,299 +10,299 @@
10
  {
11
  "epoch": 0.02,
12
  "learning_rate": 0.00013434166666666667,
13
- "loss": 3.6825,
14
  "step": 5
15
  },
16
  {
17
  "epoch": 0.04,
18
  "learning_rate": 0.00013148333333333335,
19
- "loss": 3.0286,
20
  "step": 10
21
  },
22
  {
23
  "epoch": 0.06,
24
  "learning_rate": 0.000128625,
25
- "loss": 2.75,
26
  "step": 15
27
  },
28
  {
29
  "epoch": 0.08,
30
  "learning_rate": 0.00012576666666666667,
31
- "loss": 2.6091,
32
  "step": 20
33
  },
34
  {
35
  "epoch": 0.1,
36
  "learning_rate": 0.00012290833333333334,
37
- "loss": 2.2361,
38
  "step": 25
39
  },
40
  {
41
  "epoch": 0.12,
42
  "learning_rate": 0.00012005,
43
- "loss": 2.0044,
44
  "step": 30
45
  },
46
  {
47
  "epoch": 0.15,
48
  "learning_rate": 0.00011719166666666666,
49
- "loss": 1.9533,
50
  "step": 35
51
  },
52
  {
53
  "epoch": 0.17,
54
  "learning_rate": 0.00011433333333333334,
55
- "loss": 1.5999,
56
  "step": 40
57
  },
58
  {
59
  "epoch": 0.19,
60
  "learning_rate": 0.000111475,
61
- "loss": 1.3557,
62
  "step": 45
63
  },
64
  {
65
  "epoch": 0.21,
66
  "learning_rate": 0.00010861666666666666,
67
- "loss": 1.3492,
68
  "step": 50
69
  },
70
  {
71
  "epoch": 0.23,
72
  "learning_rate": 0.00010575833333333333,
73
- "loss": 1.147,
74
  "step": 55
75
  },
76
  {
77
  "epoch": 0.25,
78
  "learning_rate": 0.00010290000000000001,
79
- "loss": 1.1389,
80
  "step": 60
81
  },
82
  {
83
  "epoch": 0.27,
84
  "learning_rate": 0.00010004166666666667,
85
- "loss": 0.9339,
86
  "step": 65
87
  },
88
  {
89
  "epoch": 0.29,
90
  "learning_rate": 9.718333333333334e-05,
91
- "loss": 0.8458,
92
  "step": 70
93
  },
94
  {
95
  "epoch": 0.31,
96
  "learning_rate": 9.4325e-05,
97
- "loss": 0.7732,
98
  "step": 75
99
  },
100
  {
101
  "epoch": 0.33,
102
  "learning_rate": 9.146666666666666e-05,
103
- "loss": 0.603,
104
  "step": 80
105
  },
106
  {
107
  "epoch": 0.35,
108
  "learning_rate": 8.860833333333334e-05,
109
- "loss": 0.6123,
110
  "step": 85
111
  },
112
  {
113
  "epoch": 0.38,
114
  "learning_rate": 8.575e-05,
115
- "loss": 0.6141,
116
  "step": 90
117
  },
118
  {
119
  "epoch": 0.4,
120
  "learning_rate": 8.289166666666666e-05,
121
- "loss": 0.5615,
122
  "step": 95
123
  },
124
  {
125
  "epoch": 0.42,
126
  "learning_rate": 8.003333333333335e-05,
127
- "loss": 0.5443,
128
  "step": 100
129
  },
130
  {
131
  "epoch": 0.44,
132
  "learning_rate": 7.7175e-05,
133
- "loss": 0.4724,
134
  "step": 105
135
  },
136
  {
137
  "epoch": 0.46,
138
  "learning_rate": 7.431666666666667e-05,
139
- "loss": 0.4853,
140
  "step": 110
141
  },
142
  {
143
  "epoch": 0.48,
144
  "learning_rate": 7.145833333333334e-05,
145
- "loss": 0.4314,
146
  "step": 115
147
  },
148
  {
149
  "epoch": 0.5,
150
  "learning_rate": 6.86e-05,
151
- "loss": 0.4108,
152
  "step": 120
153
  },
154
  {
155
  "epoch": 0.52,
156
  "learning_rate": 6.574166666666667e-05,
157
- "loss": 0.4233,
158
  "step": 125
159
  },
160
  {
161
  "epoch": 0.54,
162
  "learning_rate": 6.288333333333333e-05,
163
- "loss": 0.4202,
164
  "step": 130
165
  },
166
  {
167
  "epoch": 0.56,
168
  "learning_rate": 6.0025e-05,
169
- "loss": 0.3654,
170
  "step": 135
171
  },
172
  {
173
  "epoch": 0.58,
174
  "learning_rate": 5.716666666666667e-05,
175
- "loss": 0.3688,
176
  "step": 140
177
  },
178
  {
179
  "epoch": 0.6,
180
  "learning_rate": 5.430833333333333e-05,
181
- "loss": 0.3677,
182
  "step": 145
183
  },
184
  {
185
  "epoch": 0.62,
186
  "learning_rate": 5.1450000000000004e-05,
187
- "loss": 0.3526,
188
  "step": 150
189
  },
190
  {
191
  "epoch": 0.65,
192
  "learning_rate": 4.859166666666667e-05,
193
- "loss": 0.3537,
194
  "step": 155
195
  },
196
  {
197
  "epoch": 0.67,
198
  "learning_rate": 4.573333333333333e-05,
199
- "loss": 0.3551,
200
  "step": 160
201
  },
202
  {
203
  "epoch": 0.69,
204
  "learning_rate": 4.2875e-05,
205
- "loss": 0.3562,
206
  "step": 165
207
  },
208
  {
209
  "epoch": 0.71,
210
  "learning_rate": 4.001666666666667e-05,
211
- "loss": 0.3235,
212
  "step": 170
213
  },
214
  {
215
  "epoch": 0.73,
216
  "learning_rate": 3.715833333333333e-05,
217
- "loss": 0.3436,
218
  "step": 175
219
  },
220
  {
221
  "epoch": 0.75,
222
  "learning_rate": 3.43e-05,
223
- "loss": 0.3443,
224
  "step": 180
225
  },
226
  {
227
  "epoch": 0.77,
228
  "learning_rate": 3.144166666666667e-05,
229
- "loss": 0.3143,
230
  "step": 185
231
  },
232
  {
233
  "epoch": 0.79,
234
  "learning_rate": 2.8583333333333335e-05,
235
- "loss": 0.3246,
236
  "step": 190
237
  },
238
  {
239
  "epoch": 0.81,
240
  "learning_rate": 2.5725000000000002e-05,
241
- "loss": 0.2986,
242
  "step": 195
243
  },
244
  {
245
  "epoch": 0.83,
246
  "learning_rate": 2.2866666666666666e-05,
247
- "loss": 0.3232,
248
  "step": 200
249
  },
250
  {
251
  "epoch": 0.85,
252
  "learning_rate": 2.0008333333333336e-05,
253
- "loss": 0.3124,
254
  "step": 205
255
  },
256
  {
257
  "epoch": 0.88,
258
  "learning_rate": 1.715e-05,
259
- "loss": 0.3195,
260
  "step": 210
261
  },
262
  {
263
  "epoch": 0.9,
264
  "learning_rate": 1.4291666666666667e-05,
265
- "loss": 0.3057,
266
  "step": 215
267
  },
268
  {
269
  "epoch": 0.92,
270
  "learning_rate": 1.1433333333333333e-05,
271
- "loss": 0.3087,
272
  "step": 220
273
  },
274
  {
275
  "epoch": 0.94,
276
  "learning_rate": 8.575e-06,
277
- "loss": 0.3054,
278
  "step": 225
279
  },
280
  {
281
  "epoch": 0.96,
282
  "learning_rate": 5.7166666666666664e-06,
283
- "loss": 0.3119,
284
  "step": 230
285
  },
286
  {
287
  "epoch": 0.98,
288
  "learning_rate": 2.8583333333333332e-06,
289
- "loss": 0.2951,
290
  "step": 235
291
  },
292
  {
293
  "epoch": 1.0,
294
  "learning_rate": 0.0,
295
- "loss": 0.3201,
296
  "step": 240
297
  },
298
  {
299
  "epoch": 1.0,
300
  "step": 240,
301
  "total_flos": 125420175360000.0,
302
- "train_loss": 0.8386777694026629,
303
- "train_runtime": 64.3008,
304
- "train_samples_per_second": 3.732,
305
- "train_steps_per_second": 3.732
306
  }
307
  ],
308
  "max_steps": 240,
 
10
  {
11
  "epoch": 0.02,
12
  "learning_rate": 0.00013434166666666667,
13
+ "loss": 3.8299,
14
  "step": 5
15
  },
16
  {
17
  "epoch": 0.04,
18
  "learning_rate": 0.00013148333333333335,
19
+ "loss": 3.3964,
20
  "step": 10
21
  },
22
  {
23
  "epoch": 0.06,
24
  "learning_rate": 0.000128625,
25
+ "loss": 2.9108,
26
  "step": 15
27
  },
28
  {
29
  "epoch": 0.08,
30
  "learning_rate": 0.00012576666666666667,
31
+ "loss": 2.3073,
32
  "step": 20
33
  },
34
  {
35
  "epoch": 0.1,
36
  "learning_rate": 0.00012290833333333334,
37
+ "loss": 2.3026,
38
  "step": 25
39
  },
40
  {
41
  "epoch": 0.12,
42
  "learning_rate": 0.00012005,
43
+ "loss": 2.1369,
44
  "step": 30
45
  },
46
  {
47
  "epoch": 0.15,
48
  "learning_rate": 0.00011719166666666666,
49
+ "loss": 1.8713,
50
  "step": 35
51
  },
52
  {
53
  "epoch": 0.17,
54
  "learning_rate": 0.00011433333333333334,
55
+ "loss": 1.5702,
56
  "step": 40
57
  },
58
  {
59
  "epoch": 0.19,
60
  "learning_rate": 0.000111475,
61
+ "loss": 1.5028,
62
  "step": 45
63
  },
64
  {
65
  "epoch": 0.21,
66
  "learning_rate": 0.00010861666666666666,
67
+ "loss": 1.3045,
68
  "step": 50
69
  },
70
  {
71
  "epoch": 0.23,
72
  "learning_rate": 0.00010575833333333333,
73
+ "loss": 1.1356,
74
  "step": 55
75
  },
76
  {
77
  "epoch": 0.25,
78
  "learning_rate": 0.00010290000000000001,
79
+ "loss": 0.9824,
80
  "step": 60
81
  },
82
  {
83
  "epoch": 0.27,
84
  "learning_rate": 0.00010004166666666667,
85
+ "loss": 0.9064,
86
  "step": 65
87
  },
88
  {
89
  "epoch": 0.29,
90
  "learning_rate": 9.718333333333334e-05,
91
+ "loss": 0.8186,
92
  "step": 70
93
  },
94
  {
95
  "epoch": 0.31,
96
  "learning_rate": 9.4325e-05,
97
+ "loss": 0.7284,
98
  "step": 75
99
  },
100
  {
101
  "epoch": 0.33,
102
  "learning_rate": 9.146666666666666e-05,
103
+ "loss": 0.7031,
104
  "step": 80
105
  },
106
  {
107
  "epoch": 0.35,
108
  "learning_rate": 8.860833333333334e-05,
109
+ "loss": 0.6942,
110
  "step": 85
111
  },
112
  {
113
  "epoch": 0.38,
114
  "learning_rate": 8.575e-05,
115
+ "loss": 0.6281,
116
  "step": 90
117
  },
118
  {
119
  "epoch": 0.4,
120
  "learning_rate": 8.289166666666666e-05,
121
+ "loss": 0.5273,
122
  "step": 95
123
  },
124
  {
125
  "epoch": 0.42,
126
  "learning_rate": 8.003333333333335e-05,
127
+ "loss": 0.4803,
128
  "step": 100
129
  },
130
  {
131
  "epoch": 0.44,
132
  "learning_rate": 7.7175e-05,
133
+ "loss": 0.5407,
134
  "step": 105
135
  },
136
  {
137
  "epoch": 0.46,
138
  "learning_rate": 7.431666666666667e-05,
139
+ "loss": 0.4905,
140
  "step": 110
141
  },
142
  {
143
  "epoch": 0.48,
144
  "learning_rate": 7.145833333333334e-05,
145
+ "loss": 0.5207,
146
  "step": 115
147
  },
148
  {
149
  "epoch": 0.5,
150
  "learning_rate": 6.86e-05,
151
+ "loss": 0.4414,
152
  "step": 120
153
  },
154
  {
155
  "epoch": 0.52,
156
  "learning_rate": 6.574166666666667e-05,
157
+ "loss": 0.4308,
158
  "step": 125
159
  },
160
  {
161
  "epoch": 0.54,
162
  "learning_rate": 6.288333333333333e-05,
163
+ "loss": 0.4324,
164
  "step": 130
165
  },
166
  {
167
  "epoch": 0.56,
168
  "learning_rate": 6.0025e-05,
169
+ "loss": 0.4319,
170
  "step": 135
171
  },
172
  {
173
  "epoch": 0.58,
174
  "learning_rate": 5.716666666666667e-05,
175
+ "loss": 0.4125,
176
  "step": 140
177
  },
178
  {
179
  "epoch": 0.6,
180
  "learning_rate": 5.430833333333333e-05,
181
+ "loss": 0.4012,
182
  "step": 145
183
  },
184
  {
185
  "epoch": 0.62,
186
  "learning_rate": 5.1450000000000004e-05,
187
+ "loss": 0.4053,
188
  "step": 150
189
  },
190
  {
191
  "epoch": 0.65,
192
  "learning_rate": 4.859166666666667e-05,
193
+ "loss": 0.375,
194
  "step": 155
195
  },
196
  {
197
  "epoch": 0.67,
198
  "learning_rate": 4.573333333333333e-05,
199
+ "loss": 0.3578,
200
  "step": 160
201
  },
202
  {
203
  "epoch": 0.69,
204
  "learning_rate": 4.2875e-05,
205
+ "loss": 0.3695,
206
  "step": 165
207
  },
208
  {
209
  "epoch": 0.71,
210
  "learning_rate": 4.001666666666667e-05,
211
+ "loss": 0.3518,
212
  "step": 170
213
  },
214
  {
215
  "epoch": 0.73,
216
  "learning_rate": 3.715833333333333e-05,
217
+ "loss": 0.3547,
218
  "step": 175
219
  },
220
  {
221
  "epoch": 0.75,
222
  "learning_rate": 3.43e-05,
223
+ "loss": 0.3138,
224
  "step": 180
225
  },
226
  {
227
  "epoch": 0.77,
228
  "learning_rate": 3.144166666666667e-05,
229
+ "loss": 0.3334,
230
  "step": 185
231
  },
232
  {
233
  "epoch": 0.79,
234
  "learning_rate": 2.8583333333333335e-05,
235
+ "loss": 0.3525,
236
  "step": 190
237
  },
238
  {
239
  "epoch": 0.81,
240
  "learning_rate": 2.5725000000000002e-05,
241
+ "loss": 0.3137,
242
  "step": 195
243
  },
244
  {
245
  "epoch": 0.83,
246
  "learning_rate": 2.2866666666666666e-05,
247
+ "loss": 0.3308,
248
  "step": 200
249
  },
250
  {
251
  "epoch": 0.85,
252
  "learning_rate": 2.0008333333333336e-05,
253
+ "loss": 0.3226,
254
  "step": 205
255
  },
256
  {
257
  "epoch": 0.88,
258
  "learning_rate": 1.715e-05,
259
+ "loss": 0.3334,
260
  "step": 210
261
  },
262
  {
263
  "epoch": 0.9,
264
  "learning_rate": 1.4291666666666667e-05,
265
+ "loss": 0.3231,
266
  "step": 215
267
  },
268
  {
269
  "epoch": 0.92,
270
  "learning_rate": 1.1433333333333333e-05,
271
+ "loss": 0.318,
272
  "step": 220
273
  },
274
  {
275
  "epoch": 0.94,
276
  "learning_rate": 8.575e-06,
277
+ "loss": 0.3237,
278
  "step": 225
279
  },
280
  {
281
  "epoch": 0.96,
282
  "learning_rate": 5.7166666666666664e-06,
283
+ "loss": 0.2905,
284
  "step": 230
285
  },
286
  {
287
  "epoch": 0.98,
288
  "learning_rate": 2.8583333333333332e-06,
289
+ "loss": 0.3026,
290
  "step": 235
291
  },
292
  {
293
  "epoch": 1.0,
294
  "learning_rate": 0.0,
295
+ "loss": 0.3067,
296
  "step": 240
297
  },
298
  {
299
  "epoch": 1.0,
300
  "step": 240,
301
  "total_flos": 125420175360000.0,
302
+ "train_loss": 0.8587130382657051,
303
+ "train_runtime": 63.93,
304
+ "train_samples_per_second": 3.754,
305
+ "train_steps_per_second": 3.754
306
  }
307
  ],
308
  "max_steps": 240,