Denis641 commited on
Commit
dd257fa
1 Parent(s): 06622b6

Upload 12 files

Browse files
adapter_config.json CHANGED
@@ -23,8 +23,8 @@
23
  "rank_pattern": {},
24
  "revision": null,
25
  "target_modules": [
26
- "out_proj",
27
- "qkv_proj"
28
  ],
29
  "task_type": null,
30
  "use_dora": false,
 
23
  "rank_pattern": {},
24
  "revision": null,
25
  "target_modules": [
26
+ "qkv_proj",
27
+ "out_proj"
28
  ],
29
  "task_type": null,
30
  "use_dora": false,
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:fadb9114528e041b732fd0a4566bd7e2f204dded65efa884d4a1d0fad675a867
3
  size 3941712
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b22befb266840689bb55f714e4cb3517ec9db6d158569d9a74ec57f67d8a2f7d
3
  size 3941712
trainer_state.json CHANGED
@@ -1,432 +1,320 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 1.3679890560875512,
5
  "eval_steps": 500,
6
- "global_step": 3000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
  "epoch": 0.022799817601459188,
13
- "grad_norm": 0.765625,
14
  "learning_rate": 3.3333333333333335e-05,
15
- "loss": 0.2602,
16
  "step": 50
17
  },
18
  {
19
  "epoch": 0.045599635202918376,
20
- "grad_norm": 0.546875,
21
  "learning_rate": 6.666666666666667e-05,
22
- "loss": 0.1504,
23
  "step": 100
24
  },
25
  {
26
  "epoch": 0.06839945280437756,
27
- "grad_norm": 0.44140625,
28
  "learning_rate": 0.0001,
29
- "loss": 0.137,
30
  "step": 150
31
  },
32
  {
33
  "epoch": 0.09119927040583675,
34
- "grad_norm": 0.5390625,
35
  "learning_rate": 0.00013333333333333334,
36
- "loss": 0.1296,
37
  "step": 200
38
  },
39
  {
40
  "epoch": 0.11399908800729594,
41
- "grad_norm": 0.84765625,
42
  "learning_rate": 0.0001666666666666667,
43
- "loss": 0.1308,
44
  "step": 250
45
  },
46
  {
47
  "epoch": 0.13679890560875513,
48
- "grad_norm": 0.376953125,
49
  "learning_rate": 0.0002,
50
- "loss": 0.0811,
51
  "step": 300
52
  },
53
  {
54
  "epoch": 0.15959872321021432,
55
- "grad_norm": 0.439453125,
56
  "learning_rate": 0.00019988560970029743,
57
- "loss": 0.0842,
58
  "step": 350
59
  },
60
  {
61
  "epoch": 0.1823985408116735,
62
- "grad_norm": 0.5,
63
  "learning_rate": 0.00019977121940059484,
64
- "loss": 0.0772,
65
  "step": 400
66
  },
67
  {
68
  "epoch": 0.2051983584131327,
69
- "grad_norm": 0.44921875,
70
  "learning_rate": 0.00019965682910089226,
71
- "loss": 0.0799,
72
  "step": 450
73
  },
74
  {
75
  "epoch": 0.22799817601459188,
76
- "grad_norm": 0.5078125,
77
  "learning_rate": 0.00019954243880118967,
78
- "loss": 0.0733,
79
  "step": 500
80
  },
81
  {
82
  "epoch": 0.2507979936160511,
83
- "grad_norm": 0.4140625,
84
  "learning_rate": 0.0001994280485014871,
85
- "loss": 0.1053,
86
  "step": 550
87
  },
88
  {
89
  "epoch": 0.27359781121751026,
90
- "grad_norm": 0.431640625,
91
  "learning_rate": 0.00019931365820178448,
92
- "loss": 0.0868,
93
  "step": 600
94
  },
95
  {
96
  "epoch": 0.29639762881896947,
97
- "grad_norm": 0.87109375,
98
  "learning_rate": 0.00019919926790208192,
99
- "loss": 0.0824,
100
  "step": 650
101
  },
102
  {
103
  "epoch": 0.31919744642042863,
104
- "grad_norm": 1.0390625,
105
  "learning_rate": 0.00019908487760237934,
106
- "loss": 0.0667,
107
  "step": 700
108
  },
109
  {
110
  "epoch": 0.34199726402188785,
111
- "grad_norm": 0.8671875,
112
  "learning_rate": 0.00019897048730267673,
113
- "loss": 0.0742,
114
  "step": 750
115
  },
116
  {
117
  "epoch": 0.364797081623347,
118
- "grad_norm": 0.5703125,
119
  "learning_rate": 0.00019885609700297417,
120
- "loss": 0.0815,
121
  "step": 800
122
  },
123
  {
124
  "epoch": 0.3875968992248062,
125
- "grad_norm": 0.8203125,
126
  "learning_rate": 0.00019874170670327156,
127
- "loss": 0.0695,
128
  "step": 850
129
  },
130
  {
131
  "epoch": 0.4103967168262654,
132
- "grad_norm": 0.56640625,
133
  "learning_rate": 0.000198627316403569,
134
- "loss": 0.0564,
135
  "step": 900
136
  },
137
  {
138
  "epoch": 0.4331965344277246,
139
- "grad_norm": 0.427734375,
140
  "learning_rate": 0.0001985129261038664,
141
- "loss": 0.051,
142
  "step": 950
143
  },
144
  {
145
  "epoch": 0.45599635202918376,
146
- "grad_norm": 0.83203125,
147
  "learning_rate": 0.0001983985358041638,
148
- "loss": 0.0745,
149
  "step": 1000
150
  },
151
  {
152
  "epoch": 0.478796169630643,
153
- "grad_norm": 0.625,
154
  "learning_rate": 0.00019828414550446125,
155
- "loss": 0.0949,
156
  "step": 1050
157
  },
158
  {
159
  "epoch": 0.5015959872321022,
160
- "grad_norm": 0.337890625,
161
  "learning_rate": 0.00019816975520475864,
162
- "loss": 0.1331,
163
  "step": 1100
164
  },
165
  {
166
  "epoch": 0.5243958048335613,
167
- "grad_norm": 0.828125,
168
  "learning_rate": 0.00019805536490505606,
169
- "loss": 0.1326,
170
  "step": 1150
171
  },
172
  {
173
  "epoch": 0.5471956224350205,
174
- "grad_norm": 0.78515625,
175
  "learning_rate": 0.00019794097460535347,
176
- "loss": 0.1135,
177
  "step": 1200
178
  },
179
  {
180
  "epoch": 0.5699954400364797,
181
- "grad_norm": 0.66015625,
182
  "learning_rate": 0.0001978265843056509,
183
- "loss": 0.1085,
184
  "step": 1250
185
  },
186
  {
187
  "epoch": 0.5927952576379389,
188
- "grad_norm": 0.625,
189
  "learning_rate": 0.0001977121940059483,
190
- "loss": 0.1347,
191
  "step": 1300
192
  },
193
  {
194
  "epoch": 0.615595075239398,
195
- "grad_norm": 0.73828125,
196
  "learning_rate": 0.00019759780370624572,
197
- "loss": 0.102,
198
  "step": 1350
199
  },
200
  {
201
  "epoch": 0.6383948928408573,
202
- "grad_norm": 0.578125,
203
  "learning_rate": 0.00019748341340654314,
204
- "loss": 0.0991,
205
  "step": 1400
206
  },
207
  {
208
  "epoch": 0.6611947104423165,
209
- "grad_norm": 0.25390625,
210
  "learning_rate": 0.00019736902310684055,
211
- "loss": 0.1125,
212
  "step": 1450
213
  },
214
  {
215
  "epoch": 0.6839945280437757,
216
- "grad_norm": 0.87109375,
217
  "learning_rate": 0.00019725463280713797,
218
- "loss": 0.1183,
219
  "step": 1500
220
  },
221
  {
222
  "epoch": 0.7067943456452348,
223
- "grad_norm": 0.734375,
224
  "learning_rate": 0.00019714024250743536,
225
- "loss": 0.105,
226
  "step": 1550
227
  },
228
  {
229
  "epoch": 0.729594163246694,
230
- "grad_norm": 0.49609375,
231
  "learning_rate": 0.0001970258522077328,
232
- "loss": 0.1315,
233
  "step": 1600
234
  },
235
  {
236
  "epoch": 0.7523939808481532,
237
- "grad_norm": 0.59765625,
238
  "learning_rate": 0.00019691146190803022,
239
- "loss": 0.1133,
240
  "step": 1650
241
  },
242
  {
243
  "epoch": 0.7751937984496124,
244
- "grad_norm": 0.6484375,
245
  "learning_rate": 0.00019679707160832763,
246
- "loss": 0.1111,
247
  "step": 1700
248
  },
249
  {
250
  "epoch": 0.7979936160510716,
251
- "grad_norm": 0.671875,
252
  "learning_rate": 0.00019668268130862505,
253
- "loss": 0.1277,
254
  "step": 1750
255
  },
256
  {
257
  "epoch": 0.8207934336525308,
258
- "grad_norm": 0.392578125,
259
  "learning_rate": 0.00019656829100892244,
260
- "loss": 0.1145,
261
  "step": 1800
262
  },
263
  {
264
  "epoch": 0.84359325125399,
265
- "grad_norm": 0.63671875,
266
  "learning_rate": 0.00019645390070921988,
267
- "loss": 0.1144,
268
  "step": 1850
269
  },
270
  {
271
  "epoch": 0.8663930688554492,
272
- "grad_norm": 0.69921875,
273
  "learning_rate": 0.00019633951040951727,
274
- "loss": 0.0995,
275
  "step": 1900
276
  },
277
  {
278
  "epoch": 0.8891928864569083,
279
- "grad_norm": 0.8984375,
280
  "learning_rate": 0.00019622512010981468,
281
- "loss": 0.0972,
282
  "step": 1950
283
  },
284
  {
285
  "epoch": 0.9119927040583675,
286
- "grad_norm": 0.306640625,
287
  "learning_rate": 0.00019611072981011213,
288
- "loss": 0.105,
289
  "step": 2000
290
  },
291
  {
292
  "epoch": 0.9347925216598267,
293
- "grad_norm": 0.419921875,
294
  "learning_rate": 0.00019599633951040952,
295
- "loss": 0.1285,
296
  "step": 2050
297
  },
298
  {
299
  "epoch": 0.957592339261286,
300
- "grad_norm": 0.52734375,
301
  "learning_rate": 0.00019588194921070696,
302
- "loss": 0.1059,
303
  "step": 2100
304
  },
305
  {
306
  "epoch": 0.9803921568627451,
307
- "grad_norm": 0.79296875,
308
  "learning_rate": 0.00019576755891100435,
309
- "loss": 0.1013,
310
  "step": 2150
311
  },
312
  {
313
  "epoch": 1.0031919744642044,
314
- "grad_norm": 0.55078125,
315
  "learning_rate": 0.00019565316861130177,
316
- "loss": 0.0989,
317
  "step": 2200
318
- },
319
- {
320
- "epoch": 1.0259917920656634,
321
- "grad_norm": 0.84765625,
322
- "learning_rate": 0.00019553877831159918,
323
- "loss": 0.1024,
324
- "step": 2250
325
- },
326
- {
327
- "epoch": 1.0487916096671226,
328
- "grad_norm": 0.439453125,
329
- "learning_rate": 0.0001954243880118966,
330
- "loss": 0.0818,
331
- "step": 2300
332
- },
333
- {
334
- "epoch": 1.0715914272685818,
335
- "grad_norm": 0.59765625,
336
- "learning_rate": 0.000195309997712194,
337
- "loss": 0.0847,
338
- "step": 2350
339
- },
340
- {
341
- "epoch": 1.094391244870041,
342
- "grad_norm": 0.6640625,
343
- "learning_rate": 0.00019519560741249143,
344
- "loss": 0.0817,
345
- "step": 2400
346
- },
347
- {
348
- "epoch": 1.1171910624715002,
349
- "grad_norm": 0.61328125,
350
- "learning_rate": 0.00019508121711278885,
351
- "loss": 0.0742,
352
- "step": 2450
353
- },
354
- {
355
- "epoch": 1.1399908800729595,
356
- "grad_norm": 0.2265625,
357
- "learning_rate": 0.00019496682681308626,
358
- "loss": 0.0493,
359
- "step": 2500
360
- },
361
- {
362
- "epoch": 1.1627906976744187,
363
- "grad_norm": 0.4765625,
364
- "learning_rate": 0.00019485243651338368,
365
- "loss": 0.049,
366
- "step": 2550
367
- },
368
- {
369
- "epoch": 1.1855905152758779,
370
- "grad_norm": 0.451171875,
371
- "learning_rate": 0.0001947380462136811,
372
- "loss": 0.04,
373
- "step": 2600
374
- },
375
- {
376
- "epoch": 1.2083903328773369,
377
- "grad_norm": 0.39453125,
378
- "learning_rate": 0.0001946236559139785,
379
- "loss": 0.0446,
380
- "step": 2650
381
- },
382
- {
383
- "epoch": 1.231190150478796,
384
- "grad_norm": 0.5546875,
385
- "learning_rate": 0.00019450926561427593,
386
- "loss": 0.0398,
387
- "step": 2700
388
- },
389
- {
390
- "epoch": 1.2539899680802553,
391
- "grad_norm": 0.353515625,
392
- "learning_rate": 0.00019439487531457334,
393
- "loss": 0.0547,
394
- "step": 2750
395
- },
396
- {
397
- "epoch": 1.2767897856817145,
398
- "grad_norm": 0.83203125,
399
- "learning_rate": 0.00019428048501487076,
400
- "loss": 0.0503,
401
- "step": 2800
402
- },
403
- {
404
- "epoch": 1.2995896032831737,
405
- "grad_norm": 0.328125,
406
- "learning_rate": 0.00019416609471516815,
407
- "loss": 0.0378,
408
- "step": 2850
409
- },
410
- {
411
- "epoch": 1.322389420884633,
412
- "grad_norm": 0.54296875,
413
- "learning_rate": 0.0001940517044154656,
414
- "loss": 0.04,
415
- "step": 2900
416
- },
417
- {
418
- "epoch": 1.3451892384860922,
419
- "grad_norm": 0.82421875,
420
- "learning_rate": 0.00019393731411576298,
421
- "loss": 0.0362,
422
- "step": 2950
423
- },
424
- {
425
- "epoch": 1.3679890560875512,
426
- "grad_norm": 1.7890625,
427
- "learning_rate": 0.0001938229238160604,
428
- "loss": 0.0445,
429
- "step": 3000
430
  }
431
  ],
432
  "logging_steps": 50,
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.0031919744642044,
5
  "eval_steps": 500,
6
+ "global_step": 2200,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
  "epoch": 0.022799817601459188,
13
+ "grad_norm": 1.421875,
14
  "learning_rate": 3.3333333333333335e-05,
15
+ "loss": 5.51,
16
  "step": 50
17
  },
18
  {
19
  "epoch": 0.045599635202918376,
20
+ "grad_norm": 3.5625,
21
  "learning_rate": 6.666666666666667e-05,
22
+ "loss": 3.5808,
23
  "step": 100
24
  },
25
  {
26
  "epoch": 0.06839945280437756,
27
+ "grad_norm": 1.2890625,
28
  "learning_rate": 0.0001,
29
+ "loss": 0.4537,
30
  "step": 150
31
  },
32
  {
33
  "epoch": 0.09119927040583675,
34
+ "grad_norm": 1.0234375,
35
  "learning_rate": 0.00013333333333333334,
36
+ "loss": 0.2916,
37
  "step": 200
38
  },
39
  {
40
  "epoch": 0.11399908800729594,
41
+ "grad_norm": 1.71875,
42
  "learning_rate": 0.0001666666666666667,
43
+ "loss": 0.2631,
44
  "step": 250
45
  },
46
  {
47
  "epoch": 0.13679890560875513,
48
+ "grad_norm": 0.89453125,
49
  "learning_rate": 0.0002,
50
+ "loss": 0.1738,
51
  "step": 300
52
  },
53
  {
54
  "epoch": 0.15959872321021432,
55
+ "grad_norm": 0.9921875,
56
  "learning_rate": 0.00019988560970029743,
57
+ "loss": 0.169,
58
  "step": 350
59
  },
60
  {
61
  "epoch": 0.1823985408116735,
62
+ "grad_norm": 0.98828125,
63
  "learning_rate": 0.00019977121940059484,
64
+ "loss": 0.1567,
65
  "step": 400
66
  },
67
  {
68
  "epoch": 0.2051983584131327,
69
+ "grad_norm": 0.859375,
70
  "learning_rate": 0.00019965682910089226,
71
+ "loss": 0.1632,
72
  "step": 450
73
  },
74
  {
75
  "epoch": 0.22799817601459188,
76
+ "grad_norm": 1.046875,
77
  "learning_rate": 0.00019954243880118967,
78
+ "loss": 0.1487,
79
  "step": 500
80
  },
81
  {
82
  "epoch": 0.2507979936160511,
83
+ "grad_norm": 0.77734375,
84
  "learning_rate": 0.0001994280485014871,
85
+ "loss": 0.1939,
86
  "step": 550
87
  },
88
  {
89
  "epoch": 0.27359781121751026,
90
+ "grad_norm": 1.0546875,
91
  "learning_rate": 0.00019931365820178448,
92
+ "loss": 0.1556,
93
  "step": 600
94
  },
95
  {
96
  "epoch": 0.29639762881896947,
97
+ "grad_norm": 1.1796875,
98
  "learning_rate": 0.00019919926790208192,
99
+ "loss": 0.1534,
100
  "step": 650
101
  },
102
  {
103
  "epoch": 0.31919744642042863,
104
+ "grad_norm": 1.703125,
105
  "learning_rate": 0.00019908487760237934,
106
+ "loss": 0.1342,
107
  "step": 700
108
  },
109
  {
110
  "epoch": 0.34199726402188785,
111
+ "grad_norm": 1.421875,
112
  "learning_rate": 0.00019897048730267673,
113
+ "loss": 0.1341,
114
  "step": 750
115
  },
116
  {
117
  "epoch": 0.364797081623347,
118
+ "grad_norm": 0.875,
119
  "learning_rate": 0.00019885609700297417,
120
+ "loss": 0.1588,
121
  "step": 800
122
  },
123
  {
124
  "epoch": 0.3875968992248062,
125
+ "grad_norm": 1.328125,
126
  "learning_rate": 0.00019874170670327156,
127
+ "loss": 0.1503,
128
  "step": 850
129
  },
130
  {
131
  "epoch": 0.4103967168262654,
132
+ "grad_norm": 0.94921875,
133
  "learning_rate": 0.000198627316403569,
134
+ "loss": 0.1261,
135
  "step": 900
136
  },
137
  {
138
  "epoch": 0.4331965344277246,
139
+ "grad_norm": 0.76171875,
140
  "learning_rate": 0.0001985129261038664,
141
+ "loss": 0.115,
142
  "step": 950
143
  },
144
  {
145
  "epoch": 0.45599635202918376,
146
+ "grad_norm": 1.3359375,
147
  "learning_rate": 0.0001983985358041638,
148
+ "loss": 0.1387,
149
  "step": 1000
150
  },
151
  {
152
  "epoch": 0.478796169630643,
153
+ "grad_norm": 0.84765625,
154
  "learning_rate": 0.00019828414550446125,
155
+ "loss": 0.1002,
156
  "step": 1050
157
  },
158
  {
159
  "epoch": 0.5015959872321022,
160
+ "grad_norm": 0.423828125,
161
  "learning_rate": 0.00019816975520475864,
162
+ "loss": 0.1385,
163
  "step": 1100
164
  },
165
  {
166
  "epoch": 0.5243958048335613,
167
+ "grad_norm": 1.0390625,
168
  "learning_rate": 0.00019805536490505606,
169
+ "loss": 0.1383,
170
  "step": 1150
171
  },
172
  {
173
  "epoch": 0.5471956224350205,
174
+ "grad_norm": 1.03125,
175
  "learning_rate": 0.00019794097460535347,
176
+ "loss": 0.1182,
177
  "step": 1200
178
  },
179
  {
180
  "epoch": 0.5699954400364797,
181
+ "grad_norm": 0.8828125,
182
  "learning_rate": 0.0001978265843056509,
183
+ "loss": 0.1161,
184
  "step": 1250
185
  },
186
  {
187
  "epoch": 0.5927952576379389,
188
+ "grad_norm": 0.8046875,
189
  "learning_rate": 0.0001977121940059483,
190
+ "loss": 0.1399,
191
  "step": 1300
192
  },
193
  {
194
  "epoch": 0.615595075239398,
195
+ "grad_norm": 1.0234375,
196
  "learning_rate": 0.00019759780370624572,
197
+ "loss": 0.1071,
198
  "step": 1350
199
  },
200
  {
201
  "epoch": 0.6383948928408573,
202
+ "grad_norm": 0.73828125,
203
  "learning_rate": 0.00019748341340654314,
204
+ "loss": 0.1056,
205
  "step": 1400
206
  },
207
  {
208
  "epoch": 0.6611947104423165,
209
+ "grad_norm": 0.41015625,
210
  "learning_rate": 0.00019736902310684055,
211
+ "loss": 0.1243,
212
  "step": 1450
213
  },
214
  {
215
  "epoch": 0.6839945280437757,
216
+ "grad_norm": 1.21875,
217
  "learning_rate": 0.00019725463280713797,
218
+ "loss": 0.1251,
219
  "step": 1500
220
  },
221
  {
222
  "epoch": 0.7067943456452348,
223
+ "grad_norm": 0.984375,
224
  "learning_rate": 0.00019714024250743536,
225
+ "loss": 0.1086,
226
  "step": 1550
227
  },
228
  {
229
  "epoch": 0.729594163246694,
230
+ "grad_norm": 0.64453125,
231
  "learning_rate": 0.0001970258522077328,
232
+ "loss": 0.1346,
233
  "step": 1600
234
  },
235
  {
236
  "epoch": 0.7523939808481532,
237
+ "grad_norm": 0.765625,
238
  "learning_rate": 0.00019691146190803022,
239
+ "loss": 0.1154,
240
  "step": 1650
241
  },
242
  {
243
  "epoch": 0.7751937984496124,
244
+ "grad_norm": 0.57421875,
245
  "learning_rate": 0.00019679707160832763,
246
+ "loss": 0.1167,
247
  "step": 1700
248
  },
249
  {
250
  "epoch": 0.7979936160510716,
251
+ "grad_norm": 0.94140625,
252
  "learning_rate": 0.00019668268130862505,
253
+ "loss": 0.1325,
254
  "step": 1750
255
  },
256
  {
257
  "epoch": 0.8207934336525308,
258
+ "grad_norm": 0.4609375,
259
  "learning_rate": 0.00019656829100892244,
260
+ "loss": 0.1182,
261
  "step": 1800
262
  },
263
  {
264
  "epoch": 0.84359325125399,
265
+ "grad_norm": 0.80859375,
266
  "learning_rate": 0.00019645390070921988,
267
+ "loss": 0.1178,
268
  "step": 1850
269
  },
270
  {
271
  "epoch": 0.8663930688554492,
272
+ "grad_norm": 0.8046875,
273
  "learning_rate": 0.00019633951040951727,
274
+ "loss": 0.0999,
275
  "step": 1900
276
  },
277
  {
278
  "epoch": 0.8891928864569083,
279
+ "grad_norm": 1.2265625,
280
  "learning_rate": 0.00019622512010981468,
281
+ "loss": 0.1014,
282
  "step": 1950
283
  },
284
  {
285
  "epoch": 0.9119927040583675,
286
+ "grad_norm": 0.466796875,
287
  "learning_rate": 0.00019611072981011213,
288
+ "loss": 0.108,
289
  "step": 2000
290
  },
291
  {
292
  "epoch": 0.9347925216598267,
293
+ "grad_norm": 0.54296875,
294
  "learning_rate": 0.00019599633951040952,
295
+ "loss": 0.1308,
296
  "step": 2050
297
  },
298
  {
299
  "epoch": 0.957592339261286,
300
+ "grad_norm": 0.703125,
301
  "learning_rate": 0.00019588194921070696,
302
+ "loss": 0.1125,
303
  "step": 2100
304
  },
305
  {
306
  "epoch": 0.9803921568627451,
307
+ "grad_norm": 0.96875,
308
  "learning_rate": 0.00019576755891100435,
309
+ "loss": 0.1024,
310
  "step": 2150
311
  },
312
  {
313
  "epoch": 1.0031919744642044,
314
+ "grad_norm": 0.6484375,
315
  "learning_rate": 0.00019565316861130177,
316
+ "loss": 0.1047,
317
  "step": 2200
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
318
  }
319
  ],
320
  "logging_steps": 50,
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:df9bae3968a82437914355d765b74ab5114e2307bdbe11a7151d99643c5821de
3
  size 5240
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:faec4c4db1630a32d2e2b217ce3a945d8eefb46cce1c0aa812ba4a8a8961ef9c
3
  size 5240