BartekSadlej commited on
Commit
3c1fe09
1 Parent(s): 6cbd401

Training in progress, step 500

Browse files
config.json CHANGED
@@ -78,7 +78,7 @@
78
  "typical_p": 1.0,
79
  "use_bfloat16": false,
80
  "use_cache": true,
81
- "vocab_size": 203
82
  },
83
  "decoder_start_token_id": 2,
84
  "encoder": {
@@ -157,7 +157,7 @@
157
  "typical_p": 1.0,
158
  "use_bfloat16": false,
159
  "use_cache": true,
160
- "vocab_size": 203
161
  },
162
  "eos_token_id": 0,
163
  "is_encoder_decoder": true,
 
78
  "typical_p": 1.0,
79
  "use_bfloat16": false,
80
  "use_cache": true,
81
+ "vocab_size": 206
82
  },
83
  "decoder_start_token_id": 2,
84
  "encoder": {
 
157
  "typical_p": 1.0,
158
  "use_bfloat16": false,
159
  "use_cache": true,
160
+ "vocab_size": 206
161
  },
162
  "eos_token_id": 0,
163
  "is_encoder_decoder": true,
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2e78d9969feecc268ed5e04055443cc1b2195b84cef566954c1fadb7470c6734
3
- size 31515412
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2599babd2d0f08b6266b29d69e6f13ec9655ccf28cc7f1569058ba0edf2b1e23
3
+ size 31521568
runs/Mar04_10-13-42_f9b5e148b874/events.out.tfevents.1709547223.f9b5e148b874.6804.0 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9d60183ecdbbd3725e2263171450cb3b3deb10ecff419ec75b7aff8772ed5c1f
3
+ size 14311
tokenizer.json CHANGED
@@ -114,379 +114,385 @@
114
  "9": 15,
115
  "=": 16,
116
  "10": 17,
117
- "12": 18,
118
- "15": 19,
119
- "14": 20,
120
- "13": 21,
121
- "16": 22,
122
- "11": 23,
123
  "17": 24,
124
  "18": 25,
125
- "19": 26,
126
  "27": 27,
127
- "47": 28,
128
- "21": 29,
129
- "74": 30,
130
- "37": 31,
131
- "28": 32,
132
- "77": 33,
133
- "93": 34,
134
- "58": 35,
135
- "39": 36,
136
- "20": 37,
137
- "63": 38,
138
- "33": 39,
139
- "54": 40,
140
- "88": 41,
141
- "34": 42,
142
- "45": 43,
143
- "29": 44,
144
- "22": 45,
145
- "64": 46,
146
- "78": 47,
147
- "30": 48,
148
- "40": 49,
149
- "49": 50,
150
- "36": 51,
151
- "68": 52,
152
- "25": 53,
153
- "96": 54,
154
- "80": 55,
155
- "66": 56,
156
- "52": 57,
157
- "59": 58,
158
- "82": 59,
159
- "23": 60,
160
  "79": 61,
161
- "87": 62,
162
- "43": 63,
163
- "85": 64,
164
- "83": 65,
165
- "46": 66,
166
- "75": 67,
167
- "92": 68,
168
- "97": 69,
169
- "99": 70,
170
- "65": 71,
171
- "35": 72,
172
- "98": 73,
173
- "24": 74,
174
- "48": 75,
175
- "50": 76,
176
- "67": 77,
177
- "73": 78,
178
- "86": 79,
179
- "69": 80,
180
- "95": 81,
181
- "26": 82,
182
- "62": 83,
183
- "72": 84,
184
- "91": 85,
185
- "53": 86,
186
- "84": 87,
187
- "31": 88,
188
- "42": 89,
189
- "61": 90,
190
- "38": 91,
191
- "57": 92,
192
- "56": 93,
193
- "51": 94,
194
- "55": 95,
195
- "60": 96,
196
- "94": 97,
197
- "76": 98,
198
- "90": 99,
199
- "71": 100,
200
- "81": 101,
201
- "44": 102,
202
- "32": 103,
203
- "89": 104,
204
- "41": 105,
205
- "70": 106,
206
- "103": 107,
207
- "104": 108,
208
- "116": 109,
209
- "100": 110,
210
  "105": 111,
211
- "125": 112,
212
- "107": 113,
213
- "115": 114,
214
- "101": 115,
215
- "118": 116,
216
- "110": 117,
217
- "102": 118,
218
- "109": 119,
219
- "123": 120,
220
- "111": 121,
221
- "139": 122,
222
- "106": 123,
223
- "108": 124,
224
- "131": 125,
225
- "117": 126,
226
- "120": 127,
227
- "112": 128,
228
- "129": 129,
229
- "141": 130,
230
- "114": 131,
231
- "122": 132,
232
- "144": 133,
233
- "130": 134,
234
- "113": 135,
235
- "121": 136,
236
- "124": 137,
237
- "119": 138,
238
- "128": 139,
239
- "142": 140,
240
- "148": 141,
241
- "134": 142,
242
- "126": 143,
243
- "152": 144,
244
- "132": 145,
245
- "151": 146,
246
- "133": 147,
247
- "136": 148,
248
- "138": 149,
249
- "127": 150,
250
- "153": 151,
251
- "159": 152,
252
- "147": 153,
253
- "149": 154,
254
- "137": 155,
255
- "150": 156,
256
- "154": 157,
257
- "145": 158,
258
- "135": 159,
259
- "170": 160,
260
- "158": 161,
261
- "140": 162,
262
- "143": 163,
263
- "146": 164,
264
- "167": 165,
265
- "155": 166,
266
- "157": 167,
267
- "160": 168,
268
- "161": 169,
269
- "163": 170,
270
- "166": 171,
271
- "162": 172,
272
- "165": 173,
273
- "156": 174,
274
- "164": 175,
275
- "169": 176,
276
- "173": 177,
277
- "174": 178,
278
- "180": 179,
279
- "175": 180,
280
- "178": 181,
281
- "172": 182,
282
- "181": 183,
283
- "176": 184,
284
- "177": 185,
285
- "168": 186,
286
- "171": 187,
287
- "179": 188,
288
- "182": 189,
289
- "183": 190,
290
- "184": 191,
291
- "186": 192,
292
- "187": 193,
293
- "191": 194,
294
- "192": 195,
295
- "185": 196,
296
- "189": 197,
297
- "194": 198,
298
- "197": 199,
299
- "188": 200,
300
- "190": 201,
301
- "193": 202
 
 
 
302
  },
303
  "merges": [
304
  "1 0",
 
305
  "1 2",
306
- "1 5",
307
- "1 4",
308
  "1 3",
 
 
309
  "1 6",
310
- "1 1",
311
  "1 7",
312
  "1 8",
313
- "1 9",
314
  "2 7",
315
- "4 7",
316
- "2 1",
317
- "7 4",
318
- "3 7",
319
- "2 8",
320
- "7 7",
321
- "9 3",
322
- "5 8",
323
- "3 9",
324
  "2 0",
 
 
325
  "6 3",
326
  "3 3",
327
- "5 4",
328
- "8 8",
329
- "3 4",
330
  "4 5",
331
- "2 9",
 
 
 
332
  "2 2",
333
- "6 4",
334
- "7 8",
335
- "3 0",
336
- "4 0",
337
- "4 9",
338
- "3 6",
339
- "6 8",
340
- "2 5",
341
- "9 6",
342
- "8 0",
343
- "6 6",
344
- "5 2",
345
  "5 9",
346
- "8 2",
347
- "2 3",
348
- "7 9",
349
- "8 7",
350
- "4 3",
351
  "8 5",
352
- "8 3",
353
  "4 6",
354
- "7 5",
355
- "9 2",
356
- "9 7",
 
 
 
 
357
  "9 9",
358
- "6 5",
 
 
359
  "3 5",
360
- "9 8",
361
- "2 4",
362
- "4 8",
363
- "5 0",
364
  "6 7",
 
 
 
 
 
 
 
 
365
  "7 3",
 
366
  "8 6",
367
- "6 9",
368
- "9 5",
369
- "2 6",
370
- "6 2",
371
- "7 2",
372
- "9 1",
373
- "5 3",
374
- "8 4",
375
  "3 1",
376
- "4 2",
377
- "6 1",
378
- "3 8",
379
- "5 7",
 
 
 
 
380
  "5 6",
381
- "5 1",
382
- "5 5",
383
- "6 0",
 
384
  "9 4",
385
- "7 6",
 
 
 
 
 
 
 
 
386
  "9 0",
387
- "7 1",
388
- "8 1",
389
- "4 4",
390
- "3 2",
391
- "8 9",
392
- "4 1",
393
- "7 0",
394
- "10 3",
395
- "10 4",
396
- "1 16",
397
  "10 0",
398
- "10 5",
399
- "12 5",
400
- "10 7",
401
- "1 15",
402
- "10 1",
403
- "11 8",
404
  "1 10",
 
405
  "10 2",
 
 
 
406
  "10 9",
407
- "12 3",
408
  "11 1",
409
- "13 9",
410
  "10 6",
411
- "10 8",
412
- "13 1",
 
413
  "11 7",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
414
  "12 0",
415
- "1 12",
416
  "12 9",
417
- "14 1",
418
- "1 14",
419
- "12 2",
420
- "14 4",
421
  "13 0",
422
- "1 13",
423
- "12 1",
424
  "12 4",
425
- "11 9",
426
- "12 8",
427
- "14 2",
428
- "14 8",
429
  "13 4",
430
- "12 6",
431
- "15 2",
432
- "13 2",
433
- "15 1",
434
  "13 3",
435
- "13 6",
436
  "13 8",
437
- "12 7",
438
- "15 3",
439
- "15 9",
440
- "14 7",
441
- "14 9",
442
  "13 7",
 
 
 
 
 
 
443
  "15 0",
 
 
 
 
 
444
  "15 4",
445
- "14 5",
446
- "13 5",
447
- "17 0",
448
  "15 8",
449
- "14 0",
450
- "14 3",
451
- "14 6",
452
- "16 7",
453
- "15 5",
454
- "15 7",
455
- "16 0",
456
- "16 1",
457
  "16 3",
 
 
458
  "16 6",
459
- "16 2",
460
- "16 5",
461
  "15 6",
462
  "16 4",
463
- "16 9",
 
464
  "17 3",
465
- "17 4",
466
- "18 0",
 
 
467
  "17 5",
468
- "17 8",
469
- "17 2",
470
- "18 1",
471
  "17 6",
 
472
  "17 7",
473
- "16 8",
474
- "17 1",
475
- "17 9",
476
- "18 2",
477
  "18 3",
478
  "18 4",
 
 
 
 
479
  "18 6",
480
  "18 7",
 
 
481
  "19 1",
482
- "19 2",
483
- "18 5",
484
  "18 9",
 
 
485
  "19 4",
 
 
486
  "19 7",
487
- "18 8",
488
- "19 0",
489
- "19 3"
490
  ]
491
  }
492
  }
 
114
  "9": 15,
115
  "=": 16,
116
  "10": 17,
117
+ "11": 18,
118
+ "12": 19,
119
+ "13": 20,
120
+ "14": 21,
121
+ "15": 22,
122
+ "16": 23,
123
  "17": 24,
124
  "18": 25,
125
+ "32": 26,
126
  "27": 27,
127
+ "34": 28,
128
+ "60": 29,
129
+ "19": 30,
130
+ "50": 31,
131
+ "42": 32,
132
+ "53": 33,
133
+ "20": 34,
134
+ "40": 35,
135
+ "72": 36,
136
+ "63": 37,
137
+ "33": 38,
138
+ "43": 39,
139
+ "23": 40,
140
+ "74": 41,
141
+ "45": 42,
142
+ "51": 43,
143
+ "61": 44,
144
+ "48": 45,
145
+ "21": 46,
146
+ "22": 47,
147
+ "38": 48,
148
+ "55": 49,
149
+ "71": 50,
150
+ "39": 51,
151
+ "24": 52,
152
+ "57": 53,
153
+ "59": 54,
154
+ "85": 55,
155
+ "46": 56,
156
+ "87": 57,
157
+ "44": 58,
158
+ "30": 59,
159
+ "25": 60,
160
  "79": 61,
161
+ "29": 62,
162
+ "41": 63,
163
+ "99": 64,
164
+ "95": 65,
165
+ "26": 66,
166
+ "58": 67,
167
+ "35": 68,
168
+ "37": 69,
169
+ "67": 70,
170
+ "28": 71,
171
+ "49": 72,
172
+ "52": 73,
173
+ "76": 74,
174
+ "81": 75,
175
+ "77": 76,
176
+ "36": 77,
177
+ "89": 78,
178
+ "73": 79,
179
+ "97": 80,
180
+ "86": 81,
181
+ "31": 82,
182
+ "66": 83,
183
+ "82": 84,
184
+ "80": 85,
185
+ "47": 86,
186
+ "65": 87,
187
+ "69": 88,
188
+ "98": 89,
189
+ "88": 90,
190
+ "56": 91,
191
+ "84": 92,
192
+ "75": 93,
193
+ "54": 94,
194
+ "70": 95,
195
+ "94": 96,
196
+ "96": 97,
197
+ "68": 98,
198
+ "64": 99,
199
+ "93": 100,
200
+ "62": 101,
201
+ "78": 102,
202
+ "91": 103,
203
+ "83": 104,
204
+ "92": 105,
205
+ "90": 106,
206
+ "100": 107,
207
+ "110": 108,
208
+ "101": 109,
209
+ "102": 110,
210
  "105": 111,
211
+ "103": 112,
212
+ "104": 113,
213
+ "109": 114,
214
+ "111": 115,
215
+ "106": 116,
216
+ "127": 117,
217
+ "125": 118,
218
+ "115": 119,
219
+ "117": 120,
220
+ "121": 121,
221
+ "113": 122,
222
+ "114": 123,
223
+ "116": 124,
224
+ "119": 125,
225
+ "122": 126,
226
+ "131": 127,
227
+ "107": 128,
228
+ "108": 129,
229
+ "123": 130,
230
+ "112": 131,
231
+ "118": 132,
232
+ "128": 133,
233
+ "139": 134,
234
+ "120": 135,
235
+ "129": 136,
236
+ "130": 137,
237
+ "124": 138,
238
+ "134": 139,
239
+ "135": 140,
240
+ "140": 141,
241
+ "133": 142,
242
+ "132": 143,
243
+ "138": 144,
244
+ "126": 145,
245
+ "148": 146,
246
+ "142": 147,
247
+ "137": 148,
248
+ "136": 149,
249
+ "146": 150,
250
+ "143": 151,
251
+ "147": 152,
252
+ "157": 153,
253
+ "145": 154,
254
+ "150": 155,
255
+ "151": 156,
256
+ "152": 157,
257
+ "141": 158,
258
+ "149": 159,
259
+ "153": 160,
260
+ "154": 161,
261
+ "158": 162,
262
+ "159": 163,
263
+ "163": 164,
264
+ "155": 165,
265
+ "144": 166,
266
+ "166": 167,
267
+ "161": 168,
268
+ "160": 169,
269
+ "156": 170,
270
+ "164": 171,
271
+ "167": 172,
272
+ "168": 173,
273
+ "173": 174,
274
+ "171": 175,
275
+ "162": 176,
276
+ "169": 177,
277
+ "165": 178,
278
+ "175": 179,
279
+ "179": 180,
280
+ "170": 181,
281
+ "176": 182,
282
+ "172": 183,
283
+ "177": 184,
284
+ "174": 185,
285
+ "178": 186,
286
+ "183": 187,
287
+ "184": 188,
288
+ "185": 189,
289
+ "180": 190,
290
+ "182": 191,
291
+ "181": 192,
292
+ "186": 193,
293
+ "187": 194,
294
+ "188": 195,
295
+ "190": 196,
296
+ "191": 197,
297
+ "189": 198,
298
+ "196": 199,
299
+ "192": 200,
300
+ "194": 201,
301
+ "193": 202,
302
+ "195": 203,
303
+ "197": 204,
304
+ "198": 205
305
  },
306
  "merges": [
307
  "1 0",
308
+ "1 1",
309
  "1 2",
 
 
310
  "1 3",
311
+ "1 4",
312
+ "1 5",
313
  "1 6",
 
314
  "1 7",
315
  "1 8",
316
+ "3 2",
317
  "2 7",
318
+ "3 4",
319
+ "6 0",
320
+ "1 9",
321
+ "5 0",
322
+ "4 2",
323
+ "5 3",
 
 
 
324
  "2 0",
325
+ "4 0",
326
+ "7 2",
327
  "6 3",
328
  "3 3",
329
+ "4 3",
330
+ "2 3",
331
+ "7 4",
332
  "4 5",
333
+ "5 1",
334
+ "6 1",
335
+ "4 8",
336
+ "2 1",
337
  "2 2",
338
+ "3 8",
339
+ "5 5",
340
+ "7 1",
341
+ "3 9",
342
+ "2 4",
343
+ "5 7",
 
 
 
 
 
 
344
  "5 9",
 
 
 
 
 
345
  "8 5",
 
346
  "4 6",
347
+ "8 7",
348
+ "4 4",
349
+ "3 0",
350
+ "2 5",
351
+ "7 9",
352
+ "2 9",
353
+ "4 1",
354
  "9 9",
355
+ "9 5",
356
+ "2 6",
357
+ "5 8",
358
  "3 5",
359
+ "3 7",
 
 
 
360
  "6 7",
361
+ "2 8",
362
+ "4 9",
363
+ "5 2",
364
+ "7 6",
365
+ "8 1",
366
+ "7 7",
367
+ "3 6",
368
+ "8 9",
369
  "7 3",
370
+ "9 7",
371
  "8 6",
 
 
 
 
 
 
 
 
372
  "3 1",
373
+ "6 6",
374
+ "8 2",
375
+ "8 0",
376
+ "4 7",
377
+ "6 5",
378
+ "6 9",
379
+ "9 8",
380
+ "8 8",
381
  "5 6",
382
+ "8 4",
383
+ "7 5",
384
+ "5 4",
385
+ "7 0",
386
  "9 4",
387
+ "9 6",
388
+ "6 8",
389
+ "6 4",
390
+ "9 3",
391
+ "6 2",
392
+ "7 8",
393
+ "9 1",
394
+ "8 3",
395
+ "9 2",
396
  "9 0",
 
 
 
 
 
 
 
 
 
 
397
  "10 0",
 
 
 
 
 
 
398
  "1 10",
399
+ "10 1",
400
  "10 2",
401
+ "10 5",
402
+ "10 3",
403
+ "10 4",
404
  "10 9",
 
405
  "11 1",
 
406
  "10 6",
407
+ "12 7",
408
+ "12 5",
409
+ "11 5",
410
  "11 7",
411
+ "12 1",
412
+ "11 3",
413
+ "11 4",
414
+ "11 6",
415
+ "11 9",
416
+ "12 2",
417
+ "13 1",
418
+ "10 7",
419
+ "10 8",
420
+ "12 3",
421
+ "11 2",
422
+ "11 8",
423
+ "12 8",
424
+ "13 9",
425
  "12 0",
 
426
  "12 9",
 
 
 
 
427
  "13 0",
 
 
428
  "12 4",
 
 
 
 
429
  "13 4",
430
+ "13 5",
431
+ "14 0",
 
 
432
  "13 3",
433
+ "13 2",
434
  "13 8",
435
+ "12 6",
436
+ "14 8",
437
+ "14 2",
 
 
438
  "13 7",
439
+ "13 6",
440
+ "14 6",
441
+ "14 3",
442
+ "14 7",
443
+ "15 7",
444
+ "14 5",
445
  "15 0",
446
+ "15 1",
447
+ "15 2",
448
+ "14 1",
449
+ "14 9",
450
+ "15 3",
451
  "15 4",
 
 
 
452
  "15 8",
453
+ "15 9",
 
 
 
 
 
 
 
454
  "16 3",
455
+ "15 5",
456
+ "14 4",
457
  "16 6",
458
+ "16 1",
459
+ "16 0",
460
  "15 6",
461
  "16 4",
462
+ "16 7",
463
+ "16 8",
464
  "17 3",
465
+ "17 1",
466
+ "16 2",
467
+ "16 9",
468
+ "16 5",
469
  "17 5",
470
+ "17 9",
471
+ "17 0",
 
472
  "17 6",
473
+ "17 2",
474
  "17 7",
475
+ "17 4",
476
+ "17 8",
 
 
477
  "18 3",
478
  "18 4",
479
+ "18 5",
480
+ "18 0",
481
+ "18 2",
482
+ "18 1",
483
  "18 6",
484
  "18 7",
485
+ "18 8",
486
+ "19 0",
487
  "19 1",
 
 
488
  "18 9",
489
+ "19 6",
490
+ "19 2",
491
  "19 4",
492
+ "19 3",
493
+ "19 5",
494
  "19 7",
495
+ "19 8"
 
 
496
  ]
497
  }
498
  }
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:114be9997458e51b939066b4032e7e8e4583a30b4815054287b6ce77029f9d58
3
  size 5112
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:50aa0e345519c7f517f936bfcb3b8fd5569f7d8109e6a6d7da474ad32eee5a77
3
  size 5112