AnonymousSub commited on
Commit
1f6283e
1 Parent(s): 6400b8a

first commit

Browse files
Files changed (6) hide show
  1. config.json +24 -0
  2. optimizer.pt +3 -0
  3. pytorch_model.bin +3 -0
  4. scheduler.pt +3 -0
  5. trainer_state.json +1297 -0
  6. training_args.bin +3 -0
config.json ADDED
@@ -0,0 +1,24 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "LecbertForPreTraining"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "eos_token_id": 2,
8
+ "gradient_checkpointing": false,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 768,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 3072,
14
+ "layer_norm_eps": 1e-05,
15
+ "max_position_embeddings": 514,
16
+ "model_type": "roberta",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "pad_token_id": 1,
20
+ "position_embedding_type": "absolute",
21
+ "transformers_version": "4.6.1",
22
+ "type_vocab_size": 1,
23
+ "vocab_size": 50265
24
+ }
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ddadb9ece0d287391ec2c2d16e365ed8064de7ca0a274e961532a90e640afb1d
3
+ size 1007192453
pytorch_model.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:36c8b42d66f509e13ecf7cd08f13f2a9a73b2ba28576d06c425527a81e69913c
3
+ size 503624419
scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:17ee14c9ac506377248a930e6b7d4bf4ab5361c79618a6ff845ad6aee82cad8f
3
+ size 559
trainer_state.json ADDED
@@ -0,0 +1,1297 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 0.15831903653248758,
5
+ "global_step": 214000,
6
+ "is_local_process_zero": true,
7
+ "is_world_process_zero": true,
8
+ "log_history": [
9
+ {
10
+ "epoch": 0.000739808581927512,
11
+ "learning_rate": 1e-05,
12
+ "loss": 11.06675,
13
+ "step": 1000
14
+ },
15
+ {
16
+ "epoch": 0.001479617163855024,
17
+ "learning_rate": 2e-05,
18
+ "loss": 9.012630859375,
19
+ "step": 2000
20
+ },
21
+ {
22
+ "epoch": 0.002219425745782536,
23
+ "learning_rate": 3e-05,
24
+ "loss": 7.853123046875,
25
+ "step": 3000
26
+ },
27
+ {
28
+ "epoch": 0.002959234327710048,
29
+ "learning_rate": 4e-05,
30
+ "loss": 7.2371328125,
31
+ "step": 4000
32
+ },
33
+ {
34
+ "epoch": 0.00369904290963756,
35
+ "learning_rate": 5e-05,
36
+ "loss": 6.75319921875,
37
+ "step": 5000
38
+ },
39
+ {
40
+ "epoch": 0.004438851491565072,
41
+ "learning_rate": 6e-05,
42
+ "loss": 6.3771640625,
43
+ "step": 6000
44
+ },
45
+ {
46
+ "epoch": 0.005178660073492584,
47
+ "learning_rate": 7e-05,
48
+ "loss": 6.00278515625,
49
+ "step": 7000
50
+ },
51
+ {
52
+ "epoch": 0.005918468655420096,
53
+ "learning_rate": 8e-05,
54
+ "loss": 5.66916015625,
55
+ "step": 8000
56
+ },
57
+ {
58
+ "epoch": 0.006658277237347608,
59
+ "learning_rate": 9e-05,
60
+ "loss": 5.3051171875,
61
+ "step": 9000
62
+ },
63
+ {
64
+ "epoch": 0.00739808581927512,
65
+ "learning_rate": 0.0001,
66
+ "loss": 4.99890625,
67
+ "step": 10000
68
+ },
69
+ {
70
+ "epoch": 0.008137894401202633,
71
+ "learning_rate": 9.98989898989899e-05,
72
+ "loss": 4.6847890625,
73
+ "step": 11000
74
+ },
75
+ {
76
+ "epoch": 0.008877702983130144,
77
+ "learning_rate": 9.97979797979798e-05,
78
+ "loss": 4.393546875,
79
+ "step": 12000
80
+ },
81
+ {
82
+ "epoch": 0.009617511565057657,
83
+ "learning_rate": 9.96969696969697e-05,
84
+ "loss": 4.1845703125,
85
+ "step": 13000
86
+ },
87
+ {
88
+ "epoch": 0.010357320146985169,
89
+ "learning_rate": 9.95959595959596e-05,
90
+ "loss": 3.9956796875,
91
+ "step": 14000
92
+ },
93
+ {
94
+ "epoch": 0.011097128728912681,
95
+ "learning_rate": 9.94949494949495e-05,
96
+ "loss": 3.8322421875,
97
+ "step": 15000
98
+ },
99
+ {
100
+ "epoch": 0.011836937310840193,
101
+ "learning_rate": 9.939393939393939e-05,
102
+ "loss": 3.6949375,
103
+ "step": 16000
104
+ },
105
+ {
106
+ "epoch": 0.012576745892767706,
107
+ "learning_rate": 9.92929292929293e-05,
108
+ "loss": 3.584078125,
109
+ "step": 17000
110
+ },
111
+ {
112
+ "epoch": 0.013316554474695217,
113
+ "learning_rate": 9.919191919191919e-05,
114
+ "loss": 3.4821875,
115
+ "step": 18000
116
+ },
117
+ {
118
+ "epoch": 0.01405636305662273,
119
+ "learning_rate": 9.909090909090911e-05,
120
+ "loss": 3.4063359375,
121
+ "step": 19000
122
+ },
123
+ {
124
+ "epoch": 0.01479617163855024,
125
+ "learning_rate": 9.8989898989899e-05,
126
+ "loss": 3.3391875,
127
+ "step": 20000
128
+ },
129
+ {
130
+ "epoch": 0.015535980220477754,
131
+ "learning_rate": 9.888888888888889e-05,
132
+ "loss": 3.294140625,
133
+ "step": 21000
134
+ },
135
+ {
136
+ "epoch": 0.016275788802405267,
137
+ "learning_rate": 9.87878787878788e-05,
138
+ "loss": 3.2583359375,
139
+ "step": 22000
140
+ },
141
+ {
142
+ "epoch": 0.017015597384332778,
143
+ "learning_rate": 9.868686868686869e-05,
144
+ "loss": 3.2327890625,
145
+ "step": 23000
146
+ },
147
+ {
148
+ "epoch": 0.01775540596626029,
149
+ "learning_rate": 9.85858585858586e-05,
150
+ "loss": 3.213390625,
151
+ "step": 24000
152
+ },
153
+ {
154
+ "epoch": 0.018495214548187804,
155
+ "learning_rate": 9.848484848484849e-05,
156
+ "loss": 3.2020703125,
157
+ "step": 25000
158
+ },
159
+ {
160
+ "epoch": 0.019235023130115315,
161
+ "learning_rate": 9.838383838383838e-05,
162
+ "loss": 3.1884453125,
163
+ "step": 26000
164
+ },
165
+ {
166
+ "epoch": 0.019974831712042826,
167
+ "learning_rate": 9.828282828282829e-05,
168
+ "loss": 3.1846484375,
169
+ "step": 27000
170
+ },
171
+ {
172
+ "epoch": 0.020714640293970337,
173
+ "learning_rate": 9.818181818181818e-05,
174
+ "loss": 3.188234375,
175
+ "step": 28000
176
+ },
177
+ {
178
+ "epoch": 0.021454448875897852,
179
+ "learning_rate": 9.808080808080809e-05,
180
+ "loss": 3.1805625,
181
+ "step": 29000
182
+ },
183
+ {
184
+ "epoch": 0.022194257457825363,
185
+ "learning_rate": 9.797979797979798e-05,
186
+ "loss": 3.168953125,
187
+ "step": 30000
188
+ },
189
+ {
190
+ "epoch": 0.022934066039752874,
191
+ "learning_rate": 9.787878787878789e-05,
192
+ "loss": 3.162546875,
193
+ "step": 31000
194
+ },
195
+ {
196
+ "epoch": 0.023673874621680385,
197
+ "learning_rate": 9.777777777777778e-05,
198
+ "loss": 3.17115625,
199
+ "step": 32000
200
+ },
201
+ {
202
+ "epoch": 0.0244136832036079,
203
+ "learning_rate": 9.767676767676767e-05,
204
+ "loss": 3.168890625,
205
+ "step": 33000
206
+ },
207
+ {
208
+ "epoch": 0.02515349178553541,
209
+ "learning_rate": 9.757575757575758e-05,
210
+ "loss": 3.1635625,
211
+ "step": 34000
212
+ },
213
+ {
214
+ "epoch": 0.025893300367462922,
215
+ "learning_rate": 9.747474747474747e-05,
216
+ "loss": 3.165890625,
217
+ "step": 35000
218
+ },
219
+ {
220
+ "epoch": 0.026633108949390433,
221
+ "learning_rate": 9.737373737373738e-05,
222
+ "loss": 3.1600625,
223
+ "step": 36000
224
+ },
225
+ {
226
+ "epoch": 0.027372917531317948,
227
+ "learning_rate": 9.727272727272728e-05,
228
+ "loss": 3.15909375,
229
+ "step": 37000
230
+ },
231
+ {
232
+ "epoch": 0.02811272611324546,
233
+ "learning_rate": 9.717171717171718e-05,
234
+ "loss": 3.150296875,
235
+ "step": 38000
236
+ },
237
+ {
238
+ "epoch": 0.02885253469517297,
239
+ "learning_rate": 9.707070707070708e-05,
240
+ "loss": 3.15221875,
241
+ "step": 39000
242
+ },
243
+ {
244
+ "epoch": 0.02959234327710048,
245
+ "learning_rate": 9.696969696969698e-05,
246
+ "loss": 3.15134375,
247
+ "step": 40000
248
+ },
249
+ {
250
+ "epoch": 0.030332151859027996,
251
+ "learning_rate": 9.686868686868688e-05,
252
+ "loss": 3.141328125,
253
+ "step": 41000
254
+ },
255
+ {
256
+ "epoch": 0.031071960440955507,
257
+ "learning_rate": 9.676767676767677e-05,
258
+ "loss": 3.149328125,
259
+ "step": 42000
260
+ },
261
+ {
262
+ "epoch": 0.03181176902288302,
263
+ "learning_rate": 9.666666666666667e-05,
264
+ "loss": 3.139328125,
265
+ "step": 43000
266
+ },
267
+ {
268
+ "epoch": 0.03255157760481053,
269
+ "learning_rate": 9.656565656565657e-05,
270
+ "loss": 3.144234375,
271
+ "step": 44000
272
+ },
273
+ {
274
+ "epoch": 0.03329138618673804,
275
+ "learning_rate": 9.646464646464647e-05,
276
+ "loss": 3.1361875,
277
+ "step": 45000
278
+ },
279
+ {
280
+ "epoch": 0.034031194768665556,
281
+ "learning_rate": 9.636363636363637e-05,
282
+ "loss": 3.139328125,
283
+ "step": 46000
284
+ },
285
+ {
286
+ "epoch": 0.03477100335059307,
287
+ "learning_rate": 9.626262626262627e-05,
288
+ "loss": 3.12934375,
289
+ "step": 47000
290
+ },
291
+ {
292
+ "epoch": 0.03551081193252058,
293
+ "learning_rate": 9.616161616161616e-05,
294
+ "loss": 3.126953125,
295
+ "step": 48000
296
+ },
297
+ {
298
+ "epoch": 0.03625062051444809,
299
+ "learning_rate": 9.606060606060606e-05,
300
+ "loss": 3.123953125,
301
+ "step": 49000
302
+ },
303
+ {
304
+ "epoch": 0.03699042909637561,
305
+ "learning_rate": 9.595959595959596e-05,
306
+ "loss": 3.118390625,
307
+ "step": 50000
308
+ },
309
+ {
310
+ "epoch": 0.037730237678303115,
311
+ "learning_rate": 9.585858585858586e-05,
312
+ "loss": 3.12034375,
313
+ "step": 51000
314
+ },
315
+ {
316
+ "epoch": 0.03847004626023063,
317
+ "learning_rate": 9.575757575757576e-05,
318
+ "loss": 3.1155625,
319
+ "step": 52000
320
+ },
321
+ {
322
+ "epoch": 0.03920985484215814,
323
+ "learning_rate": 9.565656565656566e-05,
324
+ "loss": 3.112453125,
325
+ "step": 53000
326
+ },
327
+ {
328
+ "epoch": 0.03994966342408565,
329
+ "learning_rate": 9.555555555555557e-05,
330
+ "loss": 3.10696875,
331
+ "step": 54000
332
+ },
333
+ {
334
+ "epoch": 0.040689472006013166,
335
+ "learning_rate": 9.545454545454546e-05,
336
+ "loss": 3.1111875,
337
+ "step": 55000
338
+ },
339
+ {
340
+ "epoch": 0.041429280587940674,
341
+ "learning_rate": 9.535353535353537e-05,
342
+ "loss": 3.10640625,
343
+ "step": 56000
344
+ },
345
+ {
346
+ "epoch": 0.04216908916986819,
347
+ "learning_rate": 9.525252525252526e-05,
348
+ "loss": 3.105046875,
349
+ "step": 57000
350
+ },
351
+ {
352
+ "epoch": 0.042908897751795703,
353
+ "learning_rate": 9.515151515151515e-05,
354
+ "loss": 3.104453125,
355
+ "step": 58000
356
+ },
357
+ {
358
+ "epoch": 0.04364870633372321,
359
+ "learning_rate": 9.505050505050506e-05,
360
+ "loss": 3.102703125,
361
+ "step": 59000
362
+ },
363
+ {
364
+ "epoch": 0.044388514915650726,
365
+ "learning_rate": 9.494949494949495e-05,
366
+ "loss": 3.096671875,
367
+ "step": 60000
368
+ },
369
+ {
370
+ "epoch": 0.045128323497578234,
371
+ "learning_rate": 9.484848484848486e-05,
372
+ "loss": 3.09621875,
373
+ "step": 61000
374
+ },
375
+ {
376
+ "epoch": 0.04586813207950575,
377
+ "learning_rate": 9.474747474747475e-05,
378
+ "loss": 3.090984375,
379
+ "step": 62000
380
+ },
381
+ {
382
+ "epoch": 0.04660794066143326,
383
+ "learning_rate": 9.464646464646464e-05,
384
+ "loss": 3.087421875,
385
+ "step": 63000
386
+ },
387
+ {
388
+ "epoch": 0.04734774924336077,
389
+ "learning_rate": 9.454545454545455e-05,
390
+ "loss": 3.091140625,
391
+ "step": 64000
392
+ },
393
+ {
394
+ "epoch": 0.048087557825288285,
395
+ "learning_rate": 9.444444444444444e-05,
396
+ "loss": 3.084,
397
+ "step": 65000
398
+ },
399
+ {
400
+ "epoch": 0.0488273664072158,
401
+ "learning_rate": 9.434343434343435e-05,
402
+ "loss": 3.0825625,
403
+ "step": 66000
404
+ },
405
+ {
406
+ "epoch": 0.04956717498914331,
407
+ "learning_rate": 9.424242424242424e-05,
408
+ "loss": 3.074046875,
409
+ "step": 67000
410
+ },
411
+ {
412
+ "epoch": 0.05030698357107082,
413
+ "learning_rate": 9.414141414141415e-05,
414
+ "loss": 2.994109375,
415
+ "step": 68000
416
+ },
417
+ {
418
+ "epoch": 0.05104679215299833,
419
+ "learning_rate": 9.404040404040404e-05,
420
+ "loss": 2.941375,
421
+ "step": 69000
422
+ },
423
+ {
424
+ "epoch": 0.051786600734925844,
425
+ "learning_rate": 9.393939393939395e-05,
426
+ "loss": 2.9075,
427
+ "step": 70000
428
+ },
429
+ {
430
+ "epoch": 0.05252640931685336,
431
+ "learning_rate": 9.383838383838385e-05,
432
+ "loss": 2.87453125,
433
+ "step": 71000
434
+ },
435
+ {
436
+ "epoch": 0.05326621789878087,
437
+ "learning_rate": 9.373737373737375e-05,
438
+ "loss": 2.839375,
439
+ "step": 72000
440
+ },
441
+ {
442
+ "epoch": 0.05400602648070838,
443
+ "learning_rate": 9.363636363636364e-05,
444
+ "loss": 2.821875,
445
+ "step": 73000
446
+ },
447
+ {
448
+ "epoch": 0.054745835062635896,
449
+ "learning_rate": 9.353535353535354e-05,
450
+ "loss": 2.79540625,
451
+ "step": 74000
452
+ },
453
+ {
454
+ "epoch": 0.055485643644563404,
455
+ "learning_rate": 9.343434343434344e-05,
456
+ "loss": 2.7788125,
457
+ "step": 75000
458
+ },
459
+ {
460
+ "epoch": 0.05622545222649092,
461
+ "learning_rate": 9.333333333333334e-05,
462
+ "loss": 2.76378125,
463
+ "step": 76000
464
+ },
465
+ {
466
+ "epoch": 0.05696526080841843,
467
+ "learning_rate": 9.323232323232324e-05,
468
+ "loss": 2.75003125,
469
+ "step": 77000
470
+ },
471
+ {
472
+ "epoch": 0.05770506939034594,
473
+ "learning_rate": 9.313131313131314e-05,
474
+ "loss": 2.73059375,
475
+ "step": 78000
476
+ },
477
+ {
478
+ "epoch": 0.058444877972273455,
479
+ "learning_rate": 9.303030303030303e-05,
480
+ "loss": 2.7220625,
481
+ "step": 79000
482
+ },
483
+ {
484
+ "epoch": 0.05918468655420096,
485
+ "learning_rate": 9.292929292929293e-05,
486
+ "loss": 2.70821875,
487
+ "step": 80000
488
+ },
489
+ {
490
+ "epoch": 0.05992449513612848,
491
+ "learning_rate": 9.282828282828283e-05,
492
+ "loss": 2.70378125,
493
+ "step": 81000
494
+ },
495
+ {
496
+ "epoch": 0.06066430371805599,
497
+ "learning_rate": 9.272727272727273e-05,
498
+ "loss": 2.68196875,
499
+ "step": 82000
500
+ },
501
+ {
502
+ "epoch": 0.0614041122999835,
503
+ "learning_rate": 9.262626262626263e-05,
504
+ "loss": 2.68290625,
505
+ "step": 83000
506
+ },
507
+ {
508
+ "epoch": 0.062143920881911015,
509
+ "learning_rate": 9.252525252525253e-05,
510
+ "loss": 2.66859375,
511
+ "step": 84000
512
+ },
513
+ {
514
+ "epoch": 0.06288372946383852,
515
+ "learning_rate": 9.242424242424242e-05,
516
+ "loss": 2.643625,
517
+ "step": 85000
518
+ },
519
+ {
520
+ "epoch": 0.06362353804576604,
521
+ "learning_rate": 9.232323232323232e-05,
522
+ "loss": 2.64675,
523
+ "step": 86000
524
+ },
525
+ {
526
+ "epoch": 0.06436334662769355,
527
+ "learning_rate": 9.222222222222223e-05,
528
+ "loss": 2.6360625,
529
+ "step": 87000
530
+ },
531
+ {
532
+ "epoch": 0.06510315520962107,
533
+ "learning_rate": 9.212121212121214e-05,
534
+ "loss": 2.6265625,
535
+ "step": 88000
536
+ },
537
+ {
538
+ "epoch": 0.06584296379154858,
539
+ "learning_rate": 9.202020202020203e-05,
540
+ "loss": 2.61628125,
541
+ "step": 89000
542
+ },
543
+ {
544
+ "epoch": 0.06658277237347608,
545
+ "learning_rate": 9.191919191919192e-05,
546
+ "loss": 2.61065625,
547
+ "step": 90000
548
+ },
549
+ {
550
+ "epoch": 0.0673225809554036,
551
+ "learning_rate": 9.181818181818183e-05,
552
+ "loss": 2.6013125,
553
+ "step": 91000
554
+ },
555
+ {
556
+ "epoch": 0.06806238953733111,
557
+ "learning_rate": 9.171717171717172e-05,
558
+ "loss": 2.59125,
559
+ "step": 92000
560
+ },
561
+ {
562
+ "epoch": 0.06880219811925863,
563
+ "learning_rate": 9.161616161616163e-05,
564
+ "loss": 2.58496875,
565
+ "step": 93000
566
+ },
567
+ {
568
+ "epoch": 0.06954200670118614,
569
+ "learning_rate": 9.151515151515152e-05,
570
+ "loss": 2.58175,
571
+ "step": 94000
572
+ },
573
+ {
574
+ "epoch": 0.07028181528311364,
575
+ "learning_rate": 9.141414141414141e-05,
576
+ "loss": 2.5795625,
577
+ "step": 95000
578
+ },
579
+ {
580
+ "epoch": 0.07102162386504116,
581
+ "learning_rate": 9.131313131313132e-05,
582
+ "loss": 2.56846875,
583
+ "step": 96000
584
+ },
585
+ {
586
+ "epoch": 0.07176143244696867,
587
+ "learning_rate": 9.121212121212121e-05,
588
+ "loss": 2.56171875,
589
+ "step": 97000
590
+ },
591
+ {
592
+ "epoch": 0.07250124102889619,
593
+ "learning_rate": 9.111111111111112e-05,
594
+ "loss": 2.55975,
595
+ "step": 98000
596
+ },
597
+ {
598
+ "epoch": 0.0732410496108237,
599
+ "learning_rate": 9.101010101010101e-05,
600
+ "loss": 2.548375,
601
+ "step": 99000
602
+ },
603
+ {
604
+ "epoch": 0.07398085819275121,
605
+ "learning_rate": 9.090909090909092e-05,
606
+ "loss": 2.5480625,
607
+ "step": 100000
608
+ },
609
+ {
610
+ "epoch": 0.07472066677467872,
611
+ "learning_rate": 9.080808080808081e-05,
612
+ "loss": 2.5428125,
613
+ "step": 101000
614
+ },
615
+ {
616
+ "epoch": 0.07546047535660623,
617
+ "learning_rate": 9.07070707070707e-05,
618
+ "loss": 2.537125,
619
+ "step": 102000
620
+ },
621
+ {
622
+ "epoch": 0.07620028393853374,
623
+ "learning_rate": 9.060606060606061e-05,
624
+ "loss": 2.5354375,
625
+ "step": 103000
626
+ },
627
+ {
628
+ "epoch": 0.07694009252046126,
629
+ "learning_rate": 9.050505050505052e-05,
630
+ "loss": 2.5318125,
631
+ "step": 104000
632
+ },
633
+ {
634
+ "epoch": 0.07767990110238877,
635
+ "learning_rate": 9.040404040404041e-05,
636
+ "loss": 2.513,
637
+ "step": 105000
638
+ },
639
+ {
640
+ "epoch": 0.07841970968431627,
641
+ "learning_rate": 9.030303030303031e-05,
642
+ "loss": 2.51375,
643
+ "step": 106000
644
+ },
645
+ {
646
+ "epoch": 0.07915951826624379,
647
+ "learning_rate": 9.02020202020202e-05,
648
+ "loss": 2.50621875,
649
+ "step": 107000
650
+ },
651
+ {
652
+ "epoch": 0.0798993268481713,
653
+ "learning_rate": 9.010101010101011e-05,
654
+ "loss": 2.50103125,
655
+ "step": 108000
656
+ },
657
+ {
658
+ "epoch": 0.08063913543009882,
659
+ "learning_rate": 9e-05,
660
+ "loss": 2.5036875,
661
+ "step": 109000
662
+ },
663
+ {
664
+ "epoch": 0.08137894401202633,
665
+ "learning_rate": 8.98989898989899e-05,
666
+ "loss": 2.49821875,
667
+ "step": 110000
668
+ },
669
+ {
670
+ "epoch": 0.08211875259395383,
671
+ "learning_rate": 8.97979797979798e-05,
672
+ "loss": 2.49084375,
673
+ "step": 111000
674
+ },
675
+ {
676
+ "epoch": 0.08285856117588135,
677
+ "learning_rate": 8.96969696969697e-05,
678
+ "loss": 2.48453125,
679
+ "step": 112000
680
+ },
681
+ {
682
+ "epoch": 0.08359836975780886,
683
+ "learning_rate": 8.95959595959596e-05,
684
+ "loss": 2.47575,
685
+ "step": 113000
686
+ },
687
+ {
688
+ "epoch": 0.08433817833973638,
689
+ "learning_rate": 8.94949494949495e-05,
690
+ "loss": 2.48334375,
691
+ "step": 114000
692
+ },
693
+ {
694
+ "epoch": 0.08507798692166389,
695
+ "learning_rate": 8.93939393939394e-05,
696
+ "loss": 2.48015625,
697
+ "step": 115000
698
+ },
699
+ {
700
+ "epoch": 0.08581779550359141,
701
+ "learning_rate": 8.92929292929293e-05,
702
+ "loss": 2.467625,
703
+ "step": 116000
704
+ },
705
+ {
706
+ "epoch": 0.08655760408551891,
707
+ "learning_rate": 8.919191919191919e-05,
708
+ "loss": 2.464625,
709
+ "step": 117000
710
+ },
711
+ {
712
+ "epoch": 0.08729741266744642,
713
+ "learning_rate": 8.90909090909091e-05,
714
+ "loss": 2.45959375,
715
+ "step": 118000
716
+ },
717
+ {
718
+ "epoch": 0.08803722124937394,
719
+ "learning_rate": 8.898989898989899e-05,
720
+ "loss": 2.46559375,
721
+ "step": 119000
722
+ },
723
+ {
724
+ "epoch": 0.08877702983130145,
725
+ "learning_rate": 8.888888888888889e-05,
726
+ "loss": 2.453125,
727
+ "step": 120000
728
+ },
729
+ {
730
+ "epoch": 0.08951683841322897,
731
+ "learning_rate": 8.87878787878788e-05,
732
+ "loss": 2.45296875,
733
+ "step": 121000
734
+ },
735
+ {
736
+ "epoch": 0.09025664699515647,
737
+ "learning_rate": 8.868686868686869e-05,
738
+ "loss": 2.4496875,
739
+ "step": 122000
740
+ },
741
+ {
742
+ "epoch": 0.09099645557708398,
743
+ "learning_rate": 8.85858585858586e-05,
744
+ "loss": 2.4446875,
745
+ "step": 123000
746
+ },
747
+ {
748
+ "epoch": 0.0917362641590115,
749
+ "learning_rate": 8.848484848484849e-05,
750
+ "loss": 2.44803125,
751
+ "step": 124000
752
+ },
753
+ {
754
+ "epoch": 0.09247607274093901,
755
+ "learning_rate": 8.83838383838384e-05,
756
+ "loss": 2.43840625,
757
+ "step": 125000
758
+ },
759
+ {
760
+ "epoch": 0.09321588132286653,
761
+ "learning_rate": 8.828282828282829e-05,
762
+ "loss": 2.43853125,
763
+ "step": 126000
764
+ },
765
+ {
766
+ "epoch": 0.09395568990479404,
767
+ "learning_rate": 8.818181818181818e-05,
768
+ "loss": 2.44396875,
769
+ "step": 127000
770
+ },
771
+ {
772
+ "epoch": 0.09469549848672154,
773
+ "learning_rate": 8.808080808080809e-05,
774
+ "loss": 2.43378125,
775
+ "step": 128000
776
+ },
777
+ {
778
+ "epoch": 0.09543530706864906,
779
+ "learning_rate": 8.797979797979798e-05,
780
+ "loss": 2.4296875,
781
+ "step": 129000
782
+ },
783
+ {
784
+ "epoch": 0.09617511565057657,
785
+ "learning_rate": 8.787878787878789e-05,
786
+ "loss": 2.41928125,
787
+ "step": 130000
788
+ },
789
+ {
790
+ "epoch": 0.09691492423250408,
791
+ "learning_rate": 8.777777777777778e-05,
792
+ "loss": 2.41896875,
793
+ "step": 131000
794
+ },
795
+ {
796
+ "epoch": 0.0976547328144316,
797
+ "learning_rate": 8.767676767676767e-05,
798
+ "loss": 2.41890625,
799
+ "step": 132000
800
+ },
801
+ {
802
+ "epoch": 0.0983945413963591,
803
+ "learning_rate": 8.757575757575758e-05,
804
+ "loss": 2.423875,
805
+ "step": 133000
806
+ },
807
+ {
808
+ "epoch": 0.09913434997828661,
809
+ "learning_rate": 8.747474747474747e-05,
810
+ "loss": 2.41721875,
811
+ "step": 134000
812
+ },
813
+ {
814
+ "epoch": 0.09987415856021413,
815
+ "learning_rate": 8.737373737373738e-05,
816
+ "loss": 2.41221875,
817
+ "step": 135000
818
+ },
819
+ {
820
+ "epoch": 0.10061396714214164,
821
+ "learning_rate": 8.727272727272727e-05,
822
+ "loss": 2.41015625,
823
+ "step": 136000
824
+ },
825
+ {
826
+ "epoch": 0.10135377572406916,
827
+ "learning_rate": 8.717171717171718e-05,
828
+ "loss": 2.40334375,
829
+ "step": 137000
830
+ },
831
+ {
832
+ "epoch": 0.10209358430599666,
833
+ "learning_rate": 8.707070707070707e-05,
834
+ "loss": 2.4039375,
835
+ "step": 138000
836
+ },
837
+ {
838
+ "epoch": 0.10283339288792417,
839
+ "learning_rate": 8.696969696969698e-05,
840
+ "loss": 2.392,
841
+ "step": 139000
842
+ },
843
+ {
844
+ "epoch": 0.10357320146985169,
845
+ "learning_rate": 8.686868686868688e-05,
846
+ "loss": 2.3910625,
847
+ "step": 140000
848
+ },
849
+ {
850
+ "epoch": 0.1043130100517792,
851
+ "learning_rate": 8.676767676767678e-05,
852
+ "loss": 2.38865625,
853
+ "step": 141000
854
+ },
855
+ {
856
+ "epoch": 0.10505281863370672,
857
+ "learning_rate": 8.666666666666667e-05,
858
+ "loss": 2.3965,
859
+ "step": 142000
860
+ },
861
+ {
862
+ "epoch": 0.10579262721563423,
863
+ "learning_rate": 8.656565656565657e-05,
864
+ "loss": 2.37953125,
865
+ "step": 143000
866
+ },
867
+ {
868
+ "epoch": 0.10653243579756173,
869
+ "learning_rate": 8.646464646464647e-05,
870
+ "loss": 2.3775625,
871
+ "step": 144000
872
+ },
873
+ {
874
+ "epoch": 0.10727224437948925,
875
+ "learning_rate": 8.636363636363637e-05,
876
+ "loss": 2.3774375,
877
+ "step": 145000
878
+ },
879
+ {
880
+ "epoch": 0.10801205296141676,
881
+ "learning_rate": 8.626262626262627e-05,
882
+ "loss": 2.3824375,
883
+ "step": 146000
884
+ },
885
+ {
886
+ "epoch": 0.10875186154334428,
887
+ "learning_rate": 8.616161616161616e-05,
888
+ "loss": 2.3749375,
889
+ "step": 147000
890
+ },
891
+ {
892
+ "epoch": 0.10949167012527179,
893
+ "learning_rate": 8.606060606060606e-05,
894
+ "loss": 2.37059375,
895
+ "step": 148000
896
+ },
897
+ {
898
+ "epoch": 0.11023147870719929,
899
+ "learning_rate": 8.595959595959596e-05,
900
+ "loss": 2.36821875,
901
+ "step": 149000
902
+ },
903
+ {
904
+ "epoch": 0.11097128728912681,
905
+ "learning_rate": 8.585858585858586e-05,
906
+ "loss": 2.38290625,
907
+ "step": 150000
908
+ },
909
+ {
910
+ "epoch": 0.11171109587105432,
911
+ "learning_rate": 8.575757575757576e-05,
912
+ "loss": 2.36784375,
913
+ "step": 151000
914
+ },
915
+ {
916
+ "epoch": 0.11245090445298184,
917
+ "learning_rate": 8.565656565656566e-05,
918
+ "loss": 2.37403125,
919
+ "step": 152000
920
+ },
921
+ {
922
+ "epoch": 0.11319071303490935,
923
+ "learning_rate": 8.555555555555556e-05,
924
+ "loss": 2.3681875,
925
+ "step": 153000
926
+ },
927
+ {
928
+ "epoch": 0.11393052161683687,
929
+ "learning_rate": 8.545454545454545e-05,
930
+ "loss": 2.3626875,
931
+ "step": 154000
932
+ },
933
+ {
934
+ "epoch": 0.11467033019876437,
935
+ "learning_rate": 8.535353535353535e-05,
936
+ "loss": 2.365875,
937
+ "step": 155000
938
+ },
939
+ {
940
+ "epoch": 0.11541013878069188,
941
+ "learning_rate": 8.525252525252526e-05,
942
+ "loss": 2.3594375,
943
+ "step": 156000
944
+ },
945
+ {
946
+ "epoch": 0.1161499473626194,
947
+ "learning_rate": 8.515151515151515e-05,
948
+ "loss": 2.35259375,
949
+ "step": 157000
950
+ },
951
+ {
952
+ "epoch": 0.11688975594454691,
953
+ "learning_rate": 8.505050505050506e-05,
954
+ "loss": 2.35125,
955
+ "step": 158000
956
+ },
957
+ {
958
+ "epoch": 0.11762956452647443,
959
+ "learning_rate": 8.494949494949495e-05,
960
+ "loss": 2.35478125,
961
+ "step": 159000
962
+ },
963
+ {
964
+ "epoch": 0.11836937310840193,
965
+ "learning_rate": 8.484848484848486e-05,
966
+ "loss": 2.34390625,
967
+ "step": 160000
968
+ },
969
+ {
970
+ "epoch": 0.11910918169032944,
971
+ "learning_rate": 8.474747474747475e-05,
972
+ "loss": 2.3526875,
973
+ "step": 161000
974
+ },
975
+ {
976
+ "epoch": 0.11984899027225696,
977
+ "learning_rate": 8.464646464646466e-05,
978
+ "loss": 2.350125,
979
+ "step": 162000
980
+ },
981
+ {
982
+ "epoch": 0.12058879885418447,
983
+ "learning_rate": 8.454545454545455e-05,
984
+ "loss": 2.3663125,
985
+ "step": 163000
986
+ },
987
+ {
988
+ "epoch": 0.12132860743611198,
989
+ "learning_rate": 8.444444444444444e-05,
990
+ "loss": 2.3484375,
991
+ "step": 164000
992
+ },
993
+ {
994
+ "epoch": 0.12206841601803949,
995
+ "learning_rate": 8.434343434343435e-05,
996
+ "loss": 2.34578125,
997
+ "step": 165000
998
+ },
999
+ {
1000
+ "epoch": 0.122808224599967,
1001
+ "learning_rate": 8.424242424242424e-05,
1002
+ "loss": 2.34928125,
1003
+ "step": 166000
1004
+ },
1005
+ {
1006
+ "epoch": 0.12354803318189451,
1007
+ "learning_rate": 8.414141414141415e-05,
1008
+ "loss": 2.336375,
1009
+ "step": 167000
1010
+ },
1011
+ {
1012
+ "epoch": 0.12428784176382203,
1013
+ "learning_rate": 8.404040404040404e-05,
1014
+ "loss": 2.34021875,
1015
+ "step": 168000
1016
+ },
1017
+ {
1018
+ "epoch": 0.12502765034574953,
1019
+ "learning_rate": 8.393939393939393e-05,
1020
+ "loss": 2.33871875,
1021
+ "step": 169000
1022
+ },
1023
+ {
1024
+ "epoch": 0.12576745892767704,
1025
+ "learning_rate": 8.383838383838384e-05,
1026
+ "loss": 2.3376875,
1027
+ "step": 170000
1028
+ },
1029
+ {
1030
+ "epoch": 0.12650726750960456,
1031
+ "learning_rate": 8.373737373737373e-05,
1032
+ "loss": 2.33028125,
1033
+ "step": 171000
1034
+ },
1035
+ {
1036
+ "epoch": 0.12724707609153207,
1037
+ "learning_rate": 8.363636363636364e-05,
1038
+ "loss": 2.3309375,
1039
+ "step": 172000
1040
+ },
1041
+ {
1042
+ "epoch": 0.1279868846734596,
1043
+ "learning_rate": 8.353535353535355e-05,
1044
+ "loss": 2.33528125,
1045
+ "step": 173000
1046
+ },
1047
+ {
1048
+ "epoch": 0.1287266932553871,
1049
+ "learning_rate": 8.343434343434344e-05,
1050
+ "loss": 2.3350625,
1051
+ "step": 174000
1052
+ },
1053
+ {
1054
+ "epoch": 0.12946650183731462,
1055
+ "learning_rate": 8.333333333333334e-05,
1056
+ "loss": 2.32559375,
1057
+ "step": 175000
1058
+ },
1059
+ {
1060
+ "epoch": 0.13020631041924213,
1061
+ "learning_rate": 8.323232323232324e-05,
1062
+ "loss": 2.321,
1063
+ "step": 176000
1064
+ },
1065
+ {
1066
+ "epoch": 0.13094611900116965,
1067
+ "learning_rate": 8.313131313131314e-05,
1068
+ "loss": 2.33025,
1069
+ "step": 177000
1070
+ },
1071
+ {
1072
+ "epoch": 0.13168592758309716,
1073
+ "learning_rate": 8.303030303030304e-05,
1074
+ "loss": 2.3170625,
1075
+ "step": 178000
1076
+ },
1077
+ {
1078
+ "epoch": 0.13242573616502465,
1079
+ "learning_rate": 8.292929292929293e-05,
1080
+ "loss": 2.3196875,
1081
+ "step": 179000
1082
+ },
1083
+ {
1084
+ "epoch": 0.13316554474695216,
1085
+ "learning_rate": 8.282828282828283e-05,
1086
+ "loss": 2.313375,
1087
+ "step": 180000
1088
+ },
1089
+ {
1090
+ "epoch": 0.13390535332887968,
1091
+ "learning_rate": 8.272727272727273e-05,
1092
+ "loss": 2.305875,
1093
+ "step": 181000
1094
+ },
1095
+ {
1096
+ "epoch": 0.1346451619108072,
1097
+ "learning_rate": 8.262626262626263e-05,
1098
+ "loss": 2.316,
1099
+ "step": 182000
1100
+ },
1101
+ {
1102
+ "epoch": 0.1353849704927347,
1103
+ "learning_rate": 8.252525252525253e-05,
1104
+ "loss": 2.30725,
1105
+ "step": 183000
1106
+ },
1107
+ {
1108
+ "epoch": 0.13612477907466222,
1109
+ "learning_rate": 8.242424242424243e-05,
1110
+ "loss": 2.3010625,
1111
+ "step": 184000
1112
+ },
1113
+ {
1114
+ "epoch": 0.13686458765658974,
1115
+ "learning_rate": 8.232323232323233e-05,
1116
+ "loss": 2.3125625,
1117
+ "step": 185000
1118
+ },
1119
+ {
1120
+ "epoch": 0.13760439623851725,
1121
+ "learning_rate": 8.222222222222222e-05,
1122
+ "loss": 2.31725,
1123
+ "step": 186000
1124
+ },
1125
+ {
1126
+ "epoch": 0.13834420482044477,
1127
+ "learning_rate": 8.212121212121212e-05,
1128
+ "loss": 2.2964375,
1129
+ "step": 187000
1130
+ },
1131
+ {
1132
+ "epoch": 0.13908401340237228,
1133
+ "learning_rate": 8.202020202020202e-05,
1134
+ "loss": 2.302,
1135
+ "step": 188000
1136
+ },
1137
+ {
1138
+ "epoch": 0.1398238219842998,
1139
+ "learning_rate": 8.191919191919192e-05,
1140
+ "loss": 2.3019375,
1141
+ "step": 189000
1142
+ },
1143
+ {
1144
+ "epoch": 0.14056363056622728,
1145
+ "learning_rate": 8.181818181818183e-05,
1146
+ "loss": 2.3020625,
1147
+ "step": 190000
1148
+ },
1149
+ {
1150
+ "epoch": 0.1413034391481548,
1151
+ "learning_rate": 8.171717171717172e-05,
1152
+ "loss": 2.3026875,
1153
+ "step": 191000
1154
+ },
1155
+ {
1156
+ "epoch": 0.1420432477300823,
1157
+ "learning_rate": 8.161616161616163e-05,
1158
+ "loss": 2.298875,
1159
+ "step": 192000
1160
+ },
1161
+ {
1162
+ "epoch": 0.14278305631200983,
1163
+ "learning_rate": 8.151515151515152e-05,
1164
+ "loss": 2.2983125,
1165
+ "step": 193000
1166
+ },
1167
+ {
1168
+ "epoch": 0.14352286489393734,
1169
+ "learning_rate": 8.141414141414141e-05,
1170
+ "loss": 2.2835625,
1171
+ "step": 194000
1172
+ },
1173
+ {
1174
+ "epoch": 0.14426267347586486,
1175
+ "learning_rate": 8.131313131313132e-05,
1176
+ "loss": 2.2885625,
1177
+ "step": 195000
1178
+ },
1179
+ {
1180
+ "epoch": 0.14500248205779237,
1181
+ "learning_rate": 8.121212121212121e-05,
1182
+ "loss": 2.295125,
1183
+ "step": 196000
1184
+ },
1185
+ {
1186
+ "epoch": 0.14574229063971988,
1187
+ "learning_rate": 8.111111111111112e-05,
1188
+ "loss": 2.2823125,
1189
+ "step": 197000
1190
+ },
1191
+ {
1192
+ "epoch": 0.1464820992216474,
1193
+ "learning_rate": 8.101010101010101e-05,
1194
+ "loss": 2.280375,
1195
+ "step": 198000
1196
+ },
1197
+ {
1198
+ "epoch": 0.14722190780357491,
1199
+ "learning_rate": 8.090909090909092e-05,
1200
+ "loss": 2.290125,
1201
+ "step": 199000
1202
+ },
1203
+ {
1204
+ "epoch": 0.14796171638550243,
1205
+ "learning_rate": 8.080808080808081e-05,
1206
+ "loss": 2.2868125,
1207
+ "step": 200000
1208
+ },
1209
+ {
1210
+ "epoch": 0.14870152496742992,
1211
+ "learning_rate": 8.07070707070707e-05,
1212
+ "loss": 2.2840625,
1213
+ "step": 201000
1214
+ },
1215
+ {
1216
+ "epoch": 0.14944133354935743,
1217
+ "learning_rate": 8.060606060606061e-05,
1218
+ "loss": 2.2799375,
1219
+ "step": 202000
1220
+ },
1221
+ {
1222
+ "epoch": 0.15018114213128494,
1223
+ "learning_rate": 8.05050505050505e-05,
1224
+ "loss": 2.285875,
1225
+ "step": 203000
1226
+ },
1227
+ {
1228
+ "epoch": 0.15092095071321246,
1229
+ "learning_rate": 8.040404040404041e-05,
1230
+ "loss": 2.344375,
1231
+ "step": 204000
1232
+ },
1233
+ {
1234
+ "epoch": 0.15166075929513997,
1235
+ "learning_rate": 8.03030303030303e-05,
1236
+ "loss": 2.2733125,
1237
+ "step": 205000
1238
+ },
1239
+ {
1240
+ "epoch": 0.1524005678770675,
1241
+ "learning_rate": 8.02020202020202e-05,
1242
+ "loss": 2.272125,
1243
+ "step": 206000
1244
+ },
1245
+ {
1246
+ "epoch": 0.153140376458995,
1247
+ "learning_rate": 8.010101010101011e-05,
1248
+ "loss": 2.271625,
1249
+ "step": 207000
1250
+ },
1251
+ {
1252
+ "epoch": 0.15388018504092252,
1253
+ "learning_rate": 8e-05,
1254
+ "loss": 2.278125,
1255
+ "step": 208000
1256
+ },
1257
+ {
1258
+ "epoch": 0.15461999362285003,
1259
+ "learning_rate": 7.989898989898991e-05,
1260
+ "loss": 2.275625,
1261
+ "step": 209000
1262
+ },
1263
+ {
1264
+ "epoch": 0.15535980220477755,
1265
+ "learning_rate": 7.97979797979798e-05,
1266
+ "loss": 2.2675,
1267
+ "step": 210000
1268
+ },
1269
+ {
1270
+ "epoch": 0.15609961078670503,
1271
+ "learning_rate": 7.96969696969697e-05,
1272
+ "loss": 2.2676875,
1273
+ "step": 211000
1274
+ },
1275
+ {
1276
+ "epoch": 0.15683941936863255,
1277
+ "learning_rate": 7.95959595959596e-05,
1278
+ "loss": 2.265875,
1279
+ "step": 212000
1280
+ },
1281
+ {
1282
+ "epoch": 0.15757922795056006,
1283
+ "learning_rate": 7.94949494949495e-05,
1284
+ "loss": 2.260125,
1285
+ "step": 213000
1286
+ },
1287
+ {
1288
+ "epoch": 0.15831903653248758,
1289
+ "learning_rate": 7.93939393939394e-05,
1290
+ "loss": 2.2750625,
1291
+ "step": 214000
1292
+ }
1293
+ ],
1294
+ "max_steps": 1000000,
1295
+ "num_train_epochs": 1,
1296
+ "total_flos": 387919397980800000
1297
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:12d8e51be8872528fe91391a881d853bc49eac3e20c3208c9e2dc981e4968ad2
3
+ size 1839