picocreator commited on
Commit
32f3a23
1 Parent(s): dd895c2

bde186687599edc113cf9853b43b7c83793d8e3d26f3f548c974ea617c406f1c

Browse files
experiment/memory-bench/Benchmark-V5headsize2x.ipynb CHANGED
@@ -2,13 +2,13 @@
2
  "cells": [
3
  {
4
  "cell_type": "markdown",
5
- "id": "71c4c32a",
6
  "metadata": {
7
  "papermill": {
8
- "duration": 0.002417,
9
- "end_time": "2023-08-25T18:13:03.824878",
10
  "exception": false,
11
- "start_time": "2023-08-25T18:13:03.822461",
12
  "status": "completed"
13
  },
14
  "tags": []
@@ -22,19 +22,19 @@
22
  {
23
  "cell_type": "code",
24
  "execution_count": 1,
25
- "id": "fe270b5b",
26
  "metadata": {
27
  "execution": {
28
- "iopub.execute_input": "2023-08-25T18:13:03.831018Z",
29
- "iopub.status.busy": "2023-08-25T18:13:03.830299Z",
30
- "iopub.status.idle": "2023-08-25T18:14:12.483726Z",
31
- "shell.execute_reply": "2023-08-25T18:14:12.482668Z"
32
  },
33
  "papermill": {
34
- "duration": 68.65868,
35
- "end_time": "2023-08-25T18:14:12.485830",
36
  "exception": false,
37
- "start_time": "2023-08-25T18:13:03.827150",
38
  "status": "completed"
39
  },
40
  "tags": []
@@ -44,20 +44,21 @@
44
  "name": "stdout",
45
  "output_type": "stream",
46
  "text": [
47
- "--2023-08-25 18:13:04-- https://huggingface.co/rwkv-x-dev/rwkv-x-playground/resolve/main/experiment/rwkv-x-exp/v5-headsize2x/v5-hs2x-L6-D4096-E0_1-mem-ctx-8k.pth\r\n",
48
- "Resolving huggingface.co (huggingface.co)... 99.84.108.70, 99.84.108.87, 99.84.108.55, ...\r\n",
49
- "Connecting to huggingface.co (huggingface.co)|99.84.108.70|:443... connected.\r\n",
50
  "HTTP request sent, awaiting response... 302 Found\r\n",
51
- "Location: https://cdn-lfs.huggingface.co/repos/2e/f7/2ef78555202aa92abdbdf476ce3d0fd5a8b15f7245edf0b80d4d30572355f30d/fae9799e56fd469c6c1694dae6ae77f78130c06d340e945a3dc8e8ea2bd4e5bb?response-content-disposition=attachment%3B+filename*%3DUTF-8%27%27v5-hs2x-L6-D4096-E0_1-mem-ctx-8k.pth%3B+filename%3D%22v5-hs2x-L6-D4096-E0_1-mem-ctx-8k.pth%22%3B&Expires=1693246384&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTY5MzI0NjM4NH19LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy5odWdnaW5nZmFjZS5jby9yZXBvcy8yZS9mNy8yZWY3ODU1NTIwMmFhOTJhYmRiZGY0NzZjZTNkMGZkNWE4YjE1ZjcyNDVlZGYwYjgwZDRkMzA1NzIzNTVmMzBkL2ZhZTk3OTllNTZmZDQ2OWM2YzE2OTRkYWU2YWU3N2Y3ODEzMGMwNmQzNDBlOTQ1YTNkYzhlOGVhMmJkNGU1YmI%7EcmVzcG9uc2UtY29udGVudC1kaXNwb3NpdGlvbj0qIn1dfQ__&Signature=olQ8mut41rgo9BvutZmMf1PeLkSaO6PhZIzWLH4uXhJkOjZW2KPyyWAEUK1KgjPusfG7YqYbKidI2%7Efik2Nl0XSeH5ekJa8PUrMXUy5tLW2uj9h22RWGHMcTW9kF-uBoul6PBNEF6gzSk%7EB9XeS9Yv6Oq86rojg0td0fABf9Krm50-ZRRdaH9-mpV70uC1PIqtHnjBvRs6oLzmZXC6FLdiT3tF8eQ6tEqeF0ls8yneFcUEBhrggaCGUKgnr1TH60IQ4YYP3PrzuCXsrpag-kyRc1%7EUfPipr-CupOkFHyS7sscluBLcp67ZopVx8iLG%7ETCKZUIlXsa%7EqTcrcyRvm4Ag__&Key-Pair-Id=KVTP0A1DKRTAX [following]\r\n",
52
- "--2023-08-25 18:13:04-- https://cdn-lfs.huggingface.co/repos/2e/f7/2ef78555202aa92abdbdf476ce3d0fd5a8b15f7245edf0b80d4d30572355f30d/fae9799e56fd469c6c1694dae6ae77f78130c06d340e945a3dc8e8ea2bd4e5bb?response-content-disposition=attachment%3B+filename*%3DUTF-8%27%27v5-hs2x-L6-D4096-E0_1-mem-ctx-8k.pth%3B+filename%3D%22v5-hs2x-L6-D4096-E0_1-mem-ctx-8k.pth%22%3B&Expires=1693246384&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTY5MzI0NjM4NH19LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy5odWdnaW5nZmFjZS5jby9yZXBvcy8yZS9mNy8yZWY3ODU1NTIwMmFhOTJhYmRiZGY0NzZjZTNkMGZkNWE4YjE1ZjcyNDVlZGYwYjgwZDRkMzA1NzIzNTVmMzBkL2ZhZTk3OTllNTZmZDQ2OWM2YzE2OTRkYWU2YWU3N2Y3ODEzMGMwNmQzNDBlOTQ1YTNkYzhlOGVhMmJkNGU1YmI%7EcmVzcG9uc2UtY29udGVudC1kaXNwb3NpdGlvbj0qIn1dfQ__&Signature=olQ8mut41rgo9BvutZmMf1PeLkSaO6PhZIzWLH4uXhJkOjZW2KPyyWAEUK1KgjPusfG7YqYbKidI2%7Efik2Nl0XSeH5ekJa8PUrMXUy5tLW2uj9h22RWGHMcTW9kF-uBoul6PBNEF6gzSk%7EB9XeS9Yv6Oq86rojg0td0fABf9Krm50-ZRRdaH9-mpV70uC1PIqtHnjBvRs6oLzmZXC6FLdiT3tF8eQ6tEqeF0ls8yneFcUEBhrggaCGUKgnr1TH60IQ4YYP3PrzuCXsrpag-kyRc1%7EUfPipr-CupOkFHyS7sscluBLcp67ZopVx8iLG%7ETCKZUIlXsa%7EqTcrcyRvm4Ag__&Key-Pair-Id=KVTP0A1DKRTAX\r\n",
53
- "Resolving cdn-lfs.huggingface.co (cdn-lfs.huggingface.co)... 108.138.64.36, 108.138.64.49, 108.138.64.121, ...\r\n",
54
- "Connecting to cdn-lfs.huggingface.co (cdn-lfs.huggingface.co)|108.138.64.36|:443... connected.\r\n"
55
  ]
56
  },
57
  {
58
  "name": "stdout",
59
  "output_type": "stream",
60
  "text": [
 
 
61
  "HTTP request sent, awaiting response... "
62
  ]
63
  },
@@ -78,7 +79,7 @@
78
  "output_type": "stream",
79
  "text": [
80
  "\r",
81
- " v5-hs2x-L6 0%[ ] 15.26M 43.8MB/s "
82
  ]
83
  },
84
  {
@@ -86,7 +87,7 @@
86
  "output_type": "stream",
87
  "text": [
88
  "\r",
89
- " v5-hs2x-L6- 0%[ ] 30.52M 47.6MB/s "
90
  ]
91
  },
92
  {
@@ -94,7 +95,7 @@
94
  "output_type": "stream",
95
  "text": [
96
  "\r",
97
- " v5-hs2x-L6-D 1%[ ] 52.47M 60.3MB/s "
98
  ]
99
  },
100
  {
@@ -102,7 +103,7 @@
102
  "output_type": "stream",
103
  "text": [
104
  "\r",
105
- " v5-hs2x-L6-D4 1%[ ] 61.03M 56.3MB/s "
106
  ]
107
  },
108
  {
@@ -110,7 +111,7 @@
110
  "output_type": "stream",
111
  "text": [
112
  "\r",
113
- " v5-hs2x-L6-D40 2%[ ] 75.78M 54.8MB/s "
114
  ]
115
  },
116
  {
@@ -118,7 +119,7 @@
118
  "output_type": "stream",
119
  "text": [
120
  "\r",
121
- " v5-hs2x-L6-D409 2%[ ] 91.55M 50.5MB/s "
122
  ]
123
  },
124
  {
@@ -126,7 +127,7 @@
126
  "output_type": "stream",
127
  "text": [
128
  "\r",
129
- " v5-hs2x-L6-D4096 3%[ ] 106.81M 50.3MB/s "
130
  ]
131
  },
132
  {
@@ -134,7 +135,7 @@
134
  "output_type": "stream",
135
  "text": [
136
  "\r",
137
- " v5-hs2x-L6-D4096- 3%[ ] 121.32M 52.2MB/s "
138
  ]
139
  },
140
  {
@@ -142,7 +143,7 @@
142
  "output_type": "stream",
143
  "text": [
144
  "\r",
145
- " v5-hs2x-L6-D4096-E 3%[ ] 122.07M 48.2MB/s "
146
  ]
147
  },
148
  {
@@ -150,7 +151,7 @@
150
  "output_type": "stream",
151
  "text": [
152
  "\r",
153
- "v5-hs2x-L6-D4096-E0 4%[ ] 136.81M 48.4MB/s "
154
  ]
155
  },
156
  {
@@ -158,7 +159,7 @@
158
  "output_type": "stream",
159
  "text": [
160
  "\r",
161
- "5-hs2x-L6-D4096-E0_ 4%[ ] 150.76M 46.7MB/s eta 67s "
162
  ]
163
  },
164
  {
@@ -166,7 +167,7 @@
166
  "output_type": "stream",
167
  "text": [
168
  "\r",
169
- "-hs2x-L6-D4096-E0_1 5%[> ] 167.33M 47.8MB/s eta 67s "
170
  ]
171
  },
172
  {
@@ -174,7 +175,7 @@
174
  "output_type": "stream",
175
  "text": [
176
  "\r",
177
- "hs2x-L6-D4096-E0_1- 5%[> ] 182.59M 48.2MB/s eta 67s "
178
  ]
179
  },
180
  {
@@ -182,7 +183,7 @@
182
  "output_type": "stream",
183
  "text": [
184
  "\r",
185
- "s2x-L6-D4096-E0_1-m 6%[> ] 197.34M 49.5MB/s eta 67s "
186
  ]
187
  },
188
  {
@@ -190,7 +191,7 @@
190
  "output_type": "stream",
191
  "text": [
192
  "\r",
193
- "2x-L6-D4096-E0_1-me 6%[> ] 197.85M 43.4MB/s eta 71s "
194
  ]
195
  },
196
  {
@@ -198,7 +199,7 @@
198
  "output_type": "stream",
199
  "text": [
200
  "\r",
201
- "x-L6-D4096-E0_1-mem 6%[> ] 206.05M 43.3MB/s eta 71s "
202
  ]
203
  },
204
  {
@@ -206,7 +207,7 @@
206
  "output_type": "stream",
207
  "text": [
208
  "\r",
209
- "-L6-D4096-E0_1-mem- 6%[> ] 213.62M 40.9MB/s eta 71s "
210
  ]
211
  },
212
  {
@@ -214,7 +215,7 @@
214
  "output_type": "stream",
215
  "text": [
216
  "\r",
217
- "L6-D4096-E0_1-mem-c 6%[> ] 228.36M 43.3MB/s eta 71s "
218
  ]
219
  },
220
  {
@@ -222,7 +223,7 @@
222
  "output_type": "stream",
223
  "text": [
224
  "\r",
225
- "6-D4096-E0_1-mem-ct 7%[> ] 243.63M 42.2MB/s eta 69s "
226
  ]
227
  },
228
  {
@@ -230,7 +231,7 @@
230
  "output_type": "stream",
231
  "text": [
232
  "\r",
233
- "-D4096-E0_1-mem-ctx 7%[> ] 251.29M 40.3MB/s eta 69s "
234
  ]
235
  },
236
  {
@@ -238,7 +239,7 @@
238
  "output_type": "stream",
239
  "text": [
240
  "\r",
241
- "D4096-E0_1-mem-ctx- 7%[> ] 262.02M 41.2MB/s eta 69s "
242
  ]
243
  },
244
  {
@@ -246,7 +247,7 @@
246
  "output_type": "stream",
247
  "text": [
248
  "\r",
249
- "4096-E0_1-mem-ctx-8 8%[> ] 274.66M 38.9MB/s eta 69s "
250
  ]
251
  },
252
  {
@@ -254,7 +255,7 @@
254
  "output_type": "stream",
255
  "text": [
256
  "\r",
257
- "096-E0_1-mem-ctx-8k 8%[> ] 289.92M 41.6MB/s eta 68s "
258
  ]
259
  },
260
  {
@@ -262,7 +263,7 @@
262
  "output_type": "stream",
263
  "text": [
264
  "\r",
265
- "96-E0_1-mem-ctx-8k. 9%[> ] 305.18M 42.4MB/s eta 68s "
266
  ]
267
  },
268
  {
@@ -270,7 +271,7 @@
270
  "output_type": "stream",
271
  "text": [
272
  "\r",
273
- "6-E0_1-mem-ctx-8k.p 9%[> ] 323.72M 43.4MB/s eta 68s "
274
  ]
275
  },
276
  {
@@ -278,7 +279,7 @@
278
  "output_type": "stream",
279
  "text": [
280
  "\r",
281
- "-E0_1-mem-ctx-8k.pt 10%[=> ] 335.69M 45.0MB/s eta 68s "
282
  ]
283
  },
284
  {
@@ -286,7 +287,7 @@
286
  "output_type": "stream",
287
  "text": [
288
  "\r",
289
- "E0_1-mem-ctx-8k.pth 10%[=> ] 350.81M 45.9MB/s eta 68s "
290
  ]
291
  },
292
  {
@@ -294,7 +295,7 @@
294
  "output_type": "stream",
295
  "text": [
296
  "\r",
297
- "0_1-mem-ctx-8k.pth 10%[=> ] 357.26M 45.3MB/s eta 64s "
298
  ]
299
  },
300
  {
@@ -302,7 +303,7 @@
302
  "output_type": "stream",
303
  "text": [
304
  "\r",
305
- "_1-mem-ctx-8k.pth 11%[=> ] 366.20M 46.3MB/s eta 64s "
306
  ]
307
  },
308
  {
@@ -310,7 +311,7 @@
310
  "output_type": "stream",
311
  "text": [
312
  "\r",
313
- "1-mem-ctx-8k.pth 11%[=> ] 382.15M 47.1MB/s eta 64s "
314
  ]
315
  },
316
  {
@@ -318,7 +319,7 @@
318
  "output_type": "stream",
319
  "text": [
320
  "\r",
321
- "-mem-ctx-8k.pth 11%[=> ] 389.90M 46.1MB/s eta 64s "
322
  ]
323
  },
324
  {
@@ -326,7 +327,7 @@
326
  "output_type": "stream",
327
  "text": [
328
  "\r",
329
- "mem-ctx-8k.pth 12%[=> ] 407.27M 51.5MB/s eta 64s "
330
  ]
331
  },
332
  {
@@ -334,7 +335,7 @@
334
  "output_type": "stream",
335
  "text": [
336
  "\r",
337
- "em-ctx-8k.pth 12%[=> ] 411.99M 51.7MB/s eta 62s "
338
  ]
339
  },
340
  {
@@ -342,7 +343,7 @@
342
  "output_type": "stream",
343
  "text": [
344
  "\r",
345
- "m-ctx-8k.pth 13%[=> ] 427.25M 50.9MB/s eta 62s "
346
  ]
347
  },
348
  {
@@ -350,7 +351,7 @@
350
  "output_type": "stream",
351
  "text": [
352
  "\r",
353
- "-ctx-8k.pth 13%[=> ] 442.68M 53.5MB/s eta 62s "
354
  ]
355
  },
356
  {
@@ -358,7 +359,7 @@
358
  "output_type": "stream",
359
  "text": [
360
  "\r",
361
- "ctx-8k.pth 13%[=> ] 457.76M 53.8MB/s eta 62s "
362
  ]
363
  },
364
  {
@@ -366,7 +367,7 @@
366
  "output_type": "stream",
367
  "text": [
368
  "\r",
369
- "tx-8k.pth 14%[=> ] 473.02M 52.7MB/s eta 59s "
370
  ]
371
  },
372
  {
@@ -374,7 +375,7 @@
374
  "output_type": "stream",
375
  "text": [
376
  "\r",
377
- "x-8k.pth 15%[==> ] 492.96M 55.9MB/s eta 59s "
378
  ]
379
  },
380
  {
@@ -382,7 +383,7 @@
382
  "output_type": "stream",
383
  "text": [
384
  "\r",
385
- "-8k.pth 15%[==> ] 503.54M 55.6MB/s eta 59s "
386
  ]
387
  },
388
  {
@@ -390,7 +391,7 @@
390
  "output_type": "stream",
391
  "text": [
392
  "\r",
393
- "8k.pth 15%[==> ] 518.80M 56.3MB/s eta 59s "
394
  ]
395
  },
396
  {
@@ -398,7 +399,7 @@
398
  "output_type": "stream",
399
  "text": [
400
  "\r",
401
- "k.pth 16%[==> ] 534.05M 55.2MB/s eta 56s "
402
  ]
403
  },
404
  {
@@ -406,7 +407,7 @@
406
  "output_type": "stream",
407
  "text": [
408
  "\r",
409
- ".pth 16%[==> ] 549.31M 53.4MB/s eta 56s "
410
  ]
411
  },
412
  {
@@ -414,7 +415,7 @@
414
  "output_type": "stream",
415
  "text": [
416
  "\r",
417
- "pth 17%[==> ] 565.78M 53.8MB/s eta 56s "
418
  ]
419
  },
420
  {
@@ -422,7 +423,7 @@
422
  "output_type": "stream",
423
  "text": [
424
  "\r",
425
- "th 17%[==> ] 579.83M 55.4MB/s eta 56s "
426
  ]
427
  },
428
  {
@@ -430,7 +431,7 @@
430
  "output_type": "stream",
431
  "text": [
432
  "\r",
433
- "h 18%[==> ] 595.09M 56.1MB/s eta 54s "
434
  ]
435
  },
436
  {
@@ -438,7 +439,7 @@
438
  "output_type": "stream",
439
  "text": [
440
  "\r",
441
- " 18%[==> ] 608.53M 55.9MB/s eta 54s "
442
  ]
443
  },
444
  {
@@ -446,7 +447,7 @@
446
  "output_type": "stream",
447
  "text": [
448
  "\r",
449
- " v 18%[==> ] 610.35M 51.6MB/s eta 54s "
450
  ]
451
  },
452
  {
@@ -454,7 +455,7 @@
454
  "output_type": "stream",
455
  "text": [
456
  "\r",
457
- " v5 19%[==> ] 625.61M 51.7MB/s eta 54s "
458
  ]
459
  },
460
  {
@@ -462,7 +463,7 @@
462
  "output_type": "stream",
463
  "text": [
464
  "\r",
465
- " v5- 19%[==> ] 640.87M 52.1MB/s eta 55s "
466
  ]
467
  },
468
  {
@@ -470,7 +471,7 @@
470
  "output_type": "stream",
471
  "text": [
472
  "\r",
473
- " v5-h 19%[==> ] 656.13M 51.5MB/s eta 55s "
474
  ]
475
  },
476
  {
@@ -478,7 +479,7 @@
478
  "output_type": "stream",
479
  "text": [
480
  "\r",
481
- " v5-hs 20%[===> ] 667.89M 50.8MB/s eta 55s "
482
  ]
483
  },
484
  {
@@ -486,7 +487,7 @@
486
  "output_type": "stream",
487
  "text": [
488
  "\r",
489
- " v5-hs2 20%[===> ] 684.82M 50.9MB/s eta 55s "
490
  ]
491
  },
492
  {
@@ -494,7 +495,7 @@
494
  "output_type": "stream",
495
  "text": [
496
  "\r",
497
- " v5-hs2x 21%[===> ] 701.39M 49.9MB/s eta 53s "
498
  ]
499
  },
500
  {
@@ -502,7 +503,7 @@
502
  "output_type": "stream",
503
  "text": [
504
  "\r",
505
- " v5-hs2x- 21%[===> ] 716.64M 48.9MB/s eta 53s "
506
  ]
507
  },
508
  {
@@ -510,7 +511,7 @@
510
  "output_type": "stream",
511
  "text": [
512
  "\r",
513
- " v5-hs2x-L 22%[===> ] 726.10M 49.0MB/s eta 53s "
514
  ]
515
  },
516
  {
@@ -518,7 +519,7 @@
518
  "output_type": "stream",
519
  "text": [
520
  "\r",
521
- " v5-hs2x-L6 22%[===> ] 732.42M 47.0MB/s eta 53s "
522
  ]
523
  },
524
  {
@@ -526,7 +527,7 @@
526
  "output_type": "stream",
527
  "text": [
528
  "\r",
529
- " v5-hs2x-L6- 22%[===> ] 747.69M 45.9MB/s eta 52s "
530
  ]
531
  },
532
  {
@@ -534,7 +535,7 @@
534
  "output_type": "stream",
535
  "text": [
536
  "\r",
537
- " v5-hs2x-L6-D 23%[===> ] 762.42M 47.5MB/s eta 52s "
538
  ]
539
  },
540
  {
@@ -542,7 +543,7 @@
542
  "output_type": "stream",
543
  "text": [
544
  "\r",
545
- " v5-hs2x-L6-D4 23%[===> ] 777.68M 47.9MB/s eta 52s "
546
  ]
547
  },
548
  {
@@ -550,7 +551,7 @@
550
  "output_type": "stream",
551
  "text": [
552
  "\r",
553
- " v5-hs2x-L6-D40 24%[===> ] 792.94M 48.2MB/s eta 52s "
554
  ]
555
  },
556
  {
@@ -558,7 +559,7 @@
558
  "output_type": "stream",
559
  "text": [
560
  "\r",
561
- " v5-hs2x-L6-D409 24%[===> ] 808.20M 52.3MB/s eta 52s "
562
  ]
563
  },
564
  {
@@ -566,7 +567,7 @@
566
  "output_type": "stream",
567
  "text": [
568
  "\r",
569
- " v5-hs2x-L6-D4096 25%[====> ] 823.97M 51.4MB/s eta 50s "
570
  ]
571
  },
572
  {
@@ -574,7 +575,7 @@
574
  "output_type": "stream",
575
  "text": [
576
  "\r",
577
- " v5-hs2x-L6-D4096- 25%[====> ] 839.23M 54.1MB/s eta 50s "
578
  ]
579
  },
580
  {
@@ -582,7 +583,7 @@
582
  "output_type": "stream",
583
  "text": [
584
  "\r",
585
- " v5-hs2x-L6-D4096-E 26%[====> ] 854.36M 54.1MB/s eta 50s "
586
  ]
587
  },
588
  {
@@ -590,7 +591,7 @@
590
  "output_type": "stream",
591
  "text": [
592
  "\r",
593
- "v5-hs2x-L6-D4096-E0 26%[====> ] 858.39M 51.8MB/s eta 50s "
594
  ]
595
  },
596
  {
@@ -598,7 +599,7 @@
598
  "output_type": "stream",
599
  "text": [
600
  "\r",
601
- "5-hs2x-L6-D4096-E0_ 26%[====> ] 869.75M 53.9MB/s eta 50s "
602
  ]
603
  },
604
  {
@@ -606,7 +607,7 @@
606
  "output_type": "stream",
607
  "text": [
608
  "\r",
609
- "-hs2x-L6-D4096-E0_1 26%[====> ] 884.49M 53.8MB/s eta 48s "
610
  ]
611
  },
612
  {
@@ -614,7 +615,7 @@
614
  "output_type": "stream",
615
  "text": [
616
  "\r",
617
- "hs2x-L6-D4096-E0_1- 27%[====> ] 891.62M 53.5MB/s eta 48s "
618
  ]
619
  },
620
  {
@@ -622,7 +623,7 @@
622
  "output_type": "stream",
623
  "text": [
624
  "\r",
625
- "s2x-L6-D4096-E0_1-m 27%[====> ] 900.27M 52.3MB/s eta 48s "
626
  ]
627
  },
628
  {
@@ -630,7 +631,7 @@
630
  "output_type": "stream",
631
  "text": [
632
  "\r",
633
- "2x-L6-D4096-E0_1-me 27%[====> ] 915.53M 52.9MB/s eta 48s "
634
  ]
635
  },
636
  {
@@ -638,7 +639,7 @@
638
  "output_type": "stream",
639
  "text": [
640
  "\r",
641
- "x-L6-D4096-E0_1-mem 28%[====> ] 930.27M 55.8MB/s eta 48s "
642
  ]
643
  },
644
  {
@@ -646,7 +647,7 @@
646
  "output_type": "stream",
647
  "text": [
648
  "\r",
649
- "-L6-D4096-E0_1-mem- 28%[====> ] 942.91M 54.9MB/s eta 47s "
650
  ]
651
  },
652
  {
@@ -654,7 +655,7 @@
654
  "output_type": "stream",
655
  "text": [
656
  "\r",
657
- "L6-D4096-E0_1-mem-c 28%[====> ] 946.04M 55.0MB/s eta 47s "
658
  ]
659
  },
660
  {
@@ -662,7 +663,7 @@
662
  "output_type": "stream",
663
  "text": [
664
  "\r",
665
- "6-D4096-E0_1-mem-ct 29%[====> ] 961.30M 54.0MB/s eta 47s "
666
  ]
667
  },
668
  {
@@ -670,7 +671,7 @@
670
  "output_type": "stream",
671
  "text": [
672
  "\r",
673
- "-D4096-E0_1-mem-ctx 29%[====> ] 976.55M 54.7MB/s eta 47s "
674
  ]
675
  },
676
  {
@@ -678,7 +679,7 @@
678
  "output_type": "stream",
679
  "text": [
680
  "\r",
681
- "D4096-E0_1-mem-ctx- 30%[=====> ] 991.82M 55.6MB/s eta 47s "
682
  ]
683
  },
684
  {
@@ -686,7 +687,7 @@
686
  "output_type": "stream",
687
  "text": [
688
  "\r",
689
- "4096-E0_1-mem-ctx-8 30%[=====> ] 1005M 56.8MB/s eta 45s "
690
  ]
691
  },
692
  {
@@ -694,7 +695,7 @@
694
  "output_type": "stream",
695
  "text": [
696
  "\r",
697
- "096-E0_1-mem-ctx-8k 30%[=====> ] 1008M 54.3MB/s eta 45s "
698
  ]
699
  },
700
  {
@@ -702,7 +703,7 @@
702
  "output_type": "stream",
703
  "text": [
704
  "\r",
705
- "96-E0_1-mem-ctx-8k. 31%[=====> ] 1022M 53.0MB/s eta 45s "
706
  ]
707
  },
708
  {
@@ -710,7 +711,7 @@
710
  "output_type": "stream",
711
  "text": [
712
  "\r",
713
- "6-E0_1-mem-ctx-8k.p 31%[=====> ] 1.01G 51.1MB/s eta 45s "
714
  ]
715
  },
716
  {
@@ -718,7 +719,7 @@
718
  "output_type": "stream",
719
  "text": [
720
  "\r",
721
- "-E0_1-mem-ctx-8k.pt 31%[=====> ] 1.01G 50.0MB/s eta 45s "
722
  ]
723
  },
724
  {
@@ -726,7 +727,7 @@
726
  "output_type": "stream",
727
  "text": [
728
  "\r",
729
- "E0_1-mem-ctx-8k.pth 31%[=====> ] 1.02G 49.1MB/s eta 45s "
730
  ]
731
  },
732
  {
@@ -734,7 +735,7 @@
734
  "output_type": "stream",
735
  "text": [
736
  "\r",
737
- "0_1-mem-ctx-8k.pth 32%[=====> ] 1.03G 46.6MB/s eta 45s "
738
  ]
739
  },
740
  {
@@ -742,7 +743,7 @@
742
  "output_type": "stream",
743
  "text": [
744
  "\r",
745
- "_1-mem-ctx-8k.pth 32%[=====> ] 1.04G 45.9MB/s eta 45s "
746
  ]
747
  },
748
  {
@@ -750,7 +751,7 @@
750
  "output_type": "stream",
751
  "text": [
752
  "\r",
753
- "1-mem-ctx-8k.pth 32%[=====> ] 1.04G 43.6MB/s eta 45s "
754
  ]
755
  },
756
  {
@@ -758,7 +759,7 @@
758
  "output_type": "stream",
759
  "text": [
760
  "\r",
761
- "-mem-ctx-8k.pth 32%[=====> ] 1.05G 45.4MB/s eta 45s "
762
  ]
763
  },
764
  {
@@ -766,7 +767,7 @@
766
  "output_type": "stream",
767
  "text": [
768
  "\r",
769
- "mem-ctx-8k.pth 33%[=====> ] 1.06G 42.9MB/s eta 45s "
770
  ]
771
  },
772
  {
@@ -774,7 +775,7 @@
774
  "output_type": "stream",
775
  "text": [
776
  "\r",
777
- "em-ctx-8k.pth 33%[=====> ] 1.07G 41.4MB/s eta 45s "
778
  ]
779
  },
780
  {
@@ -782,7 +783,7 @@
782
  "output_type": "stream",
783
  "text": [
784
  "\r",
785
- "m-ctx-8k.pth 33%[=====> ] 1.09G 41.8MB/s eta 45s "
786
  ]
787
  },
788
  {
@@ -790,7 +791,7 @@
790
  "output_type": "stream",
791
  "text": [
792
  "\r",
793
- "-ctx-8k.pth 34%[=====> ] 1.10G 43.9MB/s eta 44s "
794
  ]
795
  },
796
  {
@@ -798,7 +799,7 @@
798
  "output_type": "stream",
799
  "text": [
800
  "\r",
801
- "ctx-8k.pth 34%[=====> ] 1.12G 43.9MB/s eta 44s "
802
  ]
803
  },
804
  {
@@ -806,7 +807,7 @@
806
  "output_type": "stream",
807
  "text": [
808
  "\r",
809
- "tx-8k.pth 35%[======> ] 1.13G 39.5MB/s eta 44s "
810
  ]
811
  },
812
  {
@@ -814,7 +815,7 @@
814
  "output_type": "stream",
815
  "text": [
816
  "\r",
817
- "x-8k.pth 35%[======> ] 1.13G 36.3MB/s eta 44s "
818
  ]
819
  },
820
  {
@@ -822,7 +823,7 @@
822
  "output_type": "stream",
823
  "text": [
824
  "\r",
825
- "-8k.pth 35%[======> ] 1.15G 38.6MB/s eta 44s "
826
  ]
827
  },
828
  {
@@ -830,7 +831,7 @@
830
  "output_type": "stream",
831
  "text": [
832
  "\r",
833
- "8k.pth 35%[======> ] 1.15G 36.6MB/s eta 44s "
834
  ]
835
  },
836
  {
@@ -838,7 +839,7 @@
838
  "output_type": "stream",
839
  "text": [
840
  "\r",
841
- "k.pth 36%[======> ] 1.16G 38.3MB/s eta 44s "
842
  ]
843
  },
844
  {
@@ -846,7 +847,7 @@
846
  "output_type": "stream",
847
  "text": [
848
  "\r",
849
- ".pth 36%[======> ] 1.18G 40.2MB/s eta 44s "
850
  ]
851
  },
852
  {
@@ -854,7 +855,7 @@
854
  "output_type": "stream",
855
  "text": [
856
  "\r",
857
- "pth 37%[======> ] 1.19G 40.1MB/s eta 44s "
858
  ]
859
  },
860
  {
@@ -862,7 +863,7 @@
862
  "output_type": "stream",
863
  "text": [
864
  "\r",
865
- "th 37%[======> ] 1.19G 40.0MB/s eta 43s "
866
  ]
867
  },
868
  {
@@ -870,7 +871,7 @@
870
  "output_type": "stream",
871
  "text": [
872
  "\r",
873
- "h 37%[======> ] 1.21G 40.6MB/s eta 43s "
874
  ]
875
  },
876
  {
@@ -878,7 +879,7 @@
878
  "output_type": "stream",
879
  "text": [
880
  "\r",
881
- " 38%[======> ] 1.22G 44.5MB/s eta 43s "
882
  ]
883
  },
884
  {
@@ -886,7 +887,7 @@
886
  "output_type": "stream",
887
  "text": [
888
  "\r",
889
- " v 38%[======> ] 1.23G 42.9MB/s eta 43s "
890
  ]
891
  },
892
  {
@@ -894,7 +895,7 @@
894
  "output_type": "stream",
895
  "text": [
896
  "\r",
897
- " v5 38%[======> ] 1.24G 43.0MB/s eta 43s "
898
  ]
899
  },
900
  {
@@ -902,7 +903,7 @@
902
  "output_type": "stream",
903
  "text": [
904
  "\r",
905
- " v5- 39%[======> ] 1.25G 45.6MB/s eta 42s "
906
  ]
907
  },
908
  {
@@ -910,7 +911,7 @@
910
  "output_type": "stream",
911
  "text": [
912
  "\r",
913
- " v5-h 39%[======> ] 1.25G 42.6MB/s eta 42s "
914
  ]
915
  },
916
  {
@@ -918,7 +919,7 @@
918
  "output_type": "stream",
919
  "text": [
920
  "\r",
921
- " v5-hs 39%[======> ] 1.27G 40.6MB/s eta 42s "
922
  ]
923
  },
924
  {
@@ -926,7 +927,7 @@
926
  "output_type": "stream",
927
  "text": [
928
  "\r",
929
- " v5-hs2 39%[======> ] 1.27G 38.3MB/s eta 42s "
930
  ]
931
  },
932
  {
@@ -934,7 +935,7 @@
934
  "output_type": "stream",
935
  "text": [
936
  "\r",
937
- " v5-hs2x 39%[======> ] 1.28G 36.9MB/s eta 42s "
938
  ]
939
  },
940
  {
@@ -942,7 +943,7 @@
942
  "output_type": "stream",
943
  "text": [
944
  "\r",
945
- " v5-hs2x- 40%[=======> ] 1.30G 39.3MB/s eta 42s "
946
  ]
947
  },
948
  {
@@ -950,7 +951,7 @@
950
  "output_type": "stream",
951
  "text": [
952
  "\r",
953
- " v5-hs2x-L 40%[=======> ] 1.31G 43.6MB/s eta 42s "
954
  ]
955
  },
956
  {
@@ -958,7 +959,7 @@
958
  "output_type": "stream",
959
  "text": [
960
  "\r",
961
- " v5-hs2x-L6 41%[=======> ] 1.33G 42.8MB/s eta 42s "
962
  ]
963
  },
964
  {
@@ -966,7 +967,7 @@
966
  "output_type": "stream",
967
  "text": [
968
  "\r",
969
- " v5-hs2x-L6- 41%[=======> ] 1.34G 42.6MB/s eta 41s "
970
  ]
971
  },
972
  {
@@ -974,7 +975,7 @@
974
  "output_type": "stream",
975
  "text": [
976
  "\r",
977
- " v5-hs2x-L6-D 41%[=======> ] 1.34G 40.0MB/s eta 41s "
978
  ]
979
  },
980
  {
@@ -982,7 +983,7 @@
982
  "output_type": "stream",
983
  "text": [
984
  "\r",
985
- " v5-hs2x-L6-D4 42%[=======> ] 1.36G 41.6MB/s eta 41s "
986
  ]
987
  },
988
  {
@@ -990,7 +991,7 @@
990
  "output_type": "stream",
991
  "text": [
992
  "\r",
993
- " v5-hs2x-L6-D40 42%[=======> ] 1.37G 42.2MB/s eta 41s "
994
  ]
995
  },
996
  {
@@ -998,7 +999,7 @@
998
  "output_type": "stream",
999
  "text": [
1000
  "\r",
1001
- " v5-hs2x-L6-D409 43%[=======> ] 1.39G 41.5MB/s eta 40s "
1002
  ]
1003
  },
1004
  {
@@ -1006,7 +1007,7 @@
1006
  "output_type": "stream",
1007
  "text": [
1008
  "\r",
1009
- " v5-hs2x-L6-D4096 43%[=======> ] 1.40G 41.5MB/s eta 40s "
1010
  ]
1011
  },
1012
  {
@@ -1014,7 +1015,7 @@
1014
  "output_type": "stream",
1015
  "text": [
1016
  "\r",
1017
- " v5-hs2x-L6-D4096- 43%[=======> ] 1.40G 41.0MB/s eta 40s "
1018
  ]
1019
  },
1020
  {
@@ -1022,7 +1023,7 @@
1022
  "output_type": "stream",
1023
  "text": [
1024
  "\r",
1025
- " v5-hs2x-L6-D4096-E 44%[=======> ] 1.42G 40.3MB/s eta 40s "
1026
  ]
1027
  },
1028
  {
@@ -1030,7 +1031,7 @@
1030
  "output_type": "stream",
1031
  "text": [
1032
  "\r",
1033
- "v5-hs2x-L6-D4096-E0 44%[=======> ] 1.43G 42.8MB/s eta 39s "
1034
  ]
1035
  },
1036
  {
@@ -1038,7 +1039,7 @@
1038
  "output_type": "stream",
1039
  "text": [
1040
  "\r",
1041
- "5-hs2x-L6-D4096-E0_ 45%[========> ] 1.45G 45.0MB/s eta 39s "
1042
  ]
1043
  },
1044
  {
@@ -1046,7 +1047,7 @@
1046
  "output_type": "stream",
1047
  "text": [
1048
  "\r",
1049
- "-hs2x-L6-D4096-E0_1 45%[========> ] 1.46G 45.3MB/s eta 39s "
1050
  ]
1051
  },
1052
  {
@@ -1054,7 +1055,7 @@
1054
  "output_type": "stream",
1055
  "text": [
1056
  "\r",
1057
- "hs2x-L6-D4096-E0_1- 46%[========> ] 1.47G 46.7MB/s eta 39s "
1058
  ]
1059
  },
1060
  {
@@ -1062,7 +1063,7 @@
1062
  "output_type": "stream",
1063
  "text": [
1064
  "\r",
1065
- "s2x-L6-D4096-E0_1-m 46%[========> ] 1.49G 44.4MB/s eta 38s "
1066
  ]
1067
  },
1068
  {
@@ -1070,7 +1071,7 @@
1070
  "output_type": "stream",
1071
  "text": [
1072
  "\r",
1073
- "2x-L6-D4096-E0_1-me 46%[========> ] 1.50G 46.1MB/s eta 38s "
1074
  ]
1075
  },
1076
  {
@@ -1078,7 +1079,7 @@
1078
  "output_type": "stream",
1079
  "text": [
1080
  "\r",
1081
- "x-L6-D4096-E0_1-mem 47%[========> ] 1.52G 46.6MB/s eta 38s "
1082
  ]
1083
  },
1084
  {
@@ -1086,7 +1087,7 @@
1086
  "output_type": "stream",
1087
  "text": [
1088
  "\r",
1089
- "-L6-D4096-E0_1-mem- 47%[========> ] 1.53G 49.2MB/s eta 38s "
1090
  ]
1091
  },
1092
  {
@@ -1094,7 +1095,7 @@
1094
  "output_type": "stream",
1095
  "text": [
1096
  "\r",
1097
- "L6-D4096-E0_1-mem-c 48%[========> ] 1.55G 49.1MB/s eta 36s "
1098
  ]
1099
  },
1100
  {
@@ -1102,7 +1103,7 @@
1102
  "output_type": "stream",
1103
  "text": [
1104
  "\r",
1105
- "6-D4096-E0_1-mem-ct 48%[========> ] 1.56G 49.9MB/s eta 36s "
1106
  ]
1107
  },
1108
  {
@@ -1110,7 +1111,7 @@
1110
  "output_type": "stream",
1111
  "text": [
1112
  "\r",
1113
- "-D4096-E0_1-mem-ctx 49%[========> ] 1.58G 49.5MB/s eta 36s "
1114
  ]
1115
  },
1116
  {
@@ -1118,7 +1119,7 @@
1118
  "output_type": "stream",
1119
  "text": [
1120
  "\r",
1121
- "D4096-E0_1-mem-ctx- 49%[========> ] 1.59G 49.7MB/s eta 36s "
1122
  ]
1123
  },
1124
  {
@@ -1126,7 +1127,7 @@
1126
  "output_type": "stream",
1127
  "text": [
1128
  "\r",
1129
- "4096-E0_1-mem-ctx-8 49%[========> ] 1.59G 49.7MB/s eta 36s "
1130
  ]
1131
  },
1132
  {
@@ -1134,7 +1135,7 @@
1134
  "output_type": "stream",
1135
  "text": [
1136
  "\r",
1137
- "096-E0_1-mem-ctx-8k 50%[=========> ] 1.61G 53.3MB/s eta 34s "
1138
  ]
1139
  },
1140
  {
@@ -1142,7 +1143,7 @@
1142
  "output_type": "stream",
1143
  "text": [
1144
  "\r",
1145
- "96-E0_1-mem-ctx-8k. 50%[=========> ] 1.62G 52.2MB/s eta 34s "
1146
  ]
1147
  },
1148
  {
@@ -1150,7 +1151,7 @@
1150
  "output_type": "stream",
1151
  "text": [
1152
  "\r",
1153
- "6-E0_1-mem-ctx-8k.p 50%[=========> ] 1.62G 49.0MB/s eta 34s "
1154
  ]
1155
  },
1156
  {
@@ -1158,7 +1159,7 @@
1158
  "output_type": "stream",
1159
  "text": [
1160
  "\r",
1161
- "-E0_1-mem-ctx-8k.pt 51%[=========> ] 1.64G 51.8MB/s eta 34s "
1162
  ]
1163
  },
1164
  {
@@ -1166,7 +1167,7 @@
1166
  "output_type": "stream",
1167
  "text": [
1168
  "\r",
1169
- "E0_1-mem-ctx-8k.pth 51%[=========> ] 1.65G 51.4MB/s eta 34s "
1170
  ]
1171
  },
1172
  {
@@ -1174,7 +1175,7 @@
1174
  "output_type": "stream",
1175
  "text": [
1176
  "\r",
1177
- "0_1-mem-ctx-8k.pth 51%[=========> ] 1.65G 49.9MB/s eta 34s "
1178
  ]
1179
  },
1180
  {
@@ -1182,7 +1183,7 @@
1182
  "output_type": "stream",
1183
  "text": [
1184
  "\r",
1185
- "_1-mem-ctx-8k.pth 51%[=========> ] 1.66G 48.7MB/s eta 34s "
1186
  ]
1187
  },
1188
  {
@@ -1190,7 +1191,7 @@
1190
  "output_type": "stream",
1191
  "text": [
1192
  "\r",
1193
- "1-mem-ctx-8k.pth 52%[=========> ] 1.67G 47.6MB/s eta 34s "
1194
  ]
1195
  },
1196
  {
@@ -1198,7 +1199,7 @@
1198
  "output_type": "stream",
1199
  "text": [
1200
  "\r",
1201
- "-mem-ctx-8k.pth 52%[=========> ] 1.68G 47.6MB/s eta 34s "
1202
  ]
1203
  },
1204
  {
@@ -1206,7 +1207,7 @@
1206
  "output_type": "stream",
1207
  "text": [
1208
  "\r",
1209
- "mem-ctx-8k.pth 52%[=========> ] 1.68G 45.6MB/s eta 33s "
1210
  ]
1211
  },
1212
  {
@@ -1214,7 +1215,7 @@
1214
  "output_type": "stream",
1215
  "text": [
1216
  "\r",
1217
- "em-ctx-8k.pth 52%[=========> ] 1.70G 45.9MB/s eta 33s "
1218
  ]
1219
  },
1220
  {
@@ -1222,7 +1223,7 @@
1222
  "output_type": "stream",
1223
  "text": [
1224
  "\r",
1225
- "m-ctx-8k.pth 53%[=========> ] 1.71G 44.9MB/s eta 33s "
1226
  ]
1227
  },
1228
  {
@@ -1230,7 +1231,7 @@
1230
  "output_type": "stream",
1231
  "text": [
1232
  "\r",
1233
- "-ctx-8k.pth 53%[=========> ] 1.72G 46.1MB/s eta 33s "
1234
  ]
1235
  },
1236
  {
@@ -1238,7 +1239,7 @@
1238
  "output_type": "stream",
1239
  "text": [
1240
  "\r",
1241
- "ctx-8k.pth 54%[=========> ] 1.74G 45.7MB/s eta 32s "
1242
  ]
1243
  },
1244
  {
@@ -1246,7 +1247,7 @@
1246
  "output_type": "stream",
1247
  "text": [
1248
  "\r",
1249
- "tx-8k.pth 54%[=========> ] 1.76G 48.4MB/s eta 32s "
1250
  ]
1251
  },
1252
  {
@@ -1254,7 +1255,7 @@
1254
  "output_type": "stream",
1255
  "text": [
1256
  "\r",
1257
- "x-8k.pth 55%[==========> ] 1.77G 47.5MB/s eta 32s "
1258
  ]
1259
  },
1260
  {
@@ -1262,7 +1263,7 @@
1262
  "output_type": "stream",
1263
  "text": [
1264
  "\r",
1265
- "-8k.pth 55%[==========> ] 1.78G 46.3MB/s eta 32s "
1266
  ]
1267
  },
1268
  {
@@ -1270,7 +1271,7 @@
1270
  "output_type": "stream",
1271
  "text": [
1272
  "\r",
1273
- "8k.pth 55%[==========> ] 1.79G 45.7MB/s eta 32s "
1274
  ]
1275
  },
1276
  {
@@ -1278,7 +1279,7 @@
1278
  "output_type": "stream",
1279
  "text": [
1280
  "\r",
1281
- "k.pth 56%[==========> ] 1.80G 45.4MB/s eta 30s "
1282
  ]
1283
  },
1284
  {
@@ -1286,7 +1287,7 @@
1286
  "output_type": "stream",
1287
  "text": [
1288
  "\r",
1289
- ".pth 56%[==========> ] 1.82G 47.0MB/s eta 30s "
1290
  ]
1291
  },
1292
  {
@@ -1294,7 +1295,7 @@
1294
  "output_type": "stream",
1295
  "text": [
1296
  "\r",
1297
- "pth 56%[==========> ] 1.82G 46.8MB/s eta 30s "
1298
  ]
1299
  },
1300
  {
@@ -1302,7 +1303,7 @@
1302
  "output_type": "stream",
1303
  "text": [
1304
  "\r",
1305
- "th 57%[==========> ] 1.83G 45.9MB/s eta 30s "
1306
  ]
1307
  },
1308
  {
@@ -1310,7 +1311,7 @@
1310
  "output_type": "stream",
1311
  "text": [
1312
  "\r",
1313
- "h 57%[==========> ] 1.85G 47.5MB/s eta 29s "
1314
  ]
1315
  },
1316
  {
@@ -1318,7 +1319,7 @@
1318
  "output_type": "stream",
1319
  "text": [
1320
  "\r",
1321
- " 58%[==========> ] 1.86G 49.6MB/s eta 29s "
1322
  ]
1323
  },
1324
  {
@@ -1326,7 +1327,7 @@
1326
  "output_type": "stream",
1327
  "text": [
1328
  "\r",
1329
- " v 58%[==========> ] 1.88G 49.8MB/s eta 29s "
1330
  ]
1331
  },
1332
  {
@@ -1334,7 +1335,7 @@
1334
  "output_type": "stream",
1335
  "text": [
1336
  "\r",
1337
- " v5 58%[==========> ] 1.89G 52.4MB/s eta 29s "
1338
  ]
1339
  },
1340
  {
@@ -1342,7 +1343,7 @@
1342
  "output_type": "stream",
1343
  "text": [
1344
  "\r",
1345
- " v5- 59%[==========> ] 1.89G 49.7MB/s eta 29s "
1346
  ]
1347
  },
1348
  {
@@ -1350,7 +1351,7 @@
1350
  "output_type": "stream",
1351
  "text": [
1352
  "\r",
1353
- " v5-h 59%[==========> ] 1.91G 50.1MB/s eta 29s "
1354
  ]
1355
  },
1356
  {
@@ -1358,7 +1359,7 @@
1358
  "output_type": "stream",
1359
  "text": [
1360
  "\r",
1361
- " v5-hs 59%[==========> ] 1.92G 49.4MB/s eta 29s "
1362
  ]
1363
  },
1364
  {
@@ -1366,7 +1367,7 @@
1366
  "output_type": "stream",
1367
  "text": [
1368
  "\r",
1369
- " v5-hs2 60%[===========> ] 1.94G 46.8MB/s eta 29s "
1370
  ]
1371
  },
1372
  {
@@ -1374,7 +1375,7 @@
1374
  "output_type": "stream",
1375
  "text": [
1376
  "\r",
1377
- " v5-hs2x 60%[===========> ] 1.95G 46.2MB/s eta 27s "
1378
  ]
1379
  },
1380
  {
@@ -1382,7 +1383,7 @@
1382
  "output_type": "stream",
1383
  "text": [
1384
  "\r",
1385
- " v5-hs2x- 61%[===========> ] 1.97G 49.2MB/s eta 27s "
1386
  ]
1387
  },
1388
  {
@@ -1390,7 +1391,7 @@
1390
  "output_type": "stream",
1391
  "text": [
1392
  "\r",
1393
- " v5-hs2x-L 61%[===========> ] 1.98G 49.0MB/s eta 27s "
1394
  ]
1395
  },
1396
  {
@@ -1398,7 +1399,7 @@
1398
  "output_type": "stream",
1399
  "text": [
1400
  "\r",
1401
- " v5-hs2x-L6 62%[===========> ] 2.00G 47.4MB/s eta 27s "
1402
  ]
1403
  },
1404
  {
@@ -1406,7 +1407,7 @@
1406
  "output_type": "stream",
1407
  "text": [
1408
  "\r",
1409
- " v5-hs2x-L6- 62%[===========> ] 2.01G 47.4MB/s eta 26s "
1410
  ]
1411
  },
1412
  {
@@ -1414,7 +1415,7 @@
1414
  "output_type": "stream",
1415
  "text": [
1416
  "\r",
1417
- " v5-hs2x-L6-D 63%[===========> ] 2.03G 50.2MB/s eta 26s "
1418
  ]
1419
  },
1420
  {
@@ -1422,7 +1423,7 @@
1422
  "output_type": "stream",
1423
  "text": [
1424
  "\r",
1425
- " v5-hs2x-L6-D4 63%[===========> ] 2.04G 52.1MB/s eta 26s "
1426
  ]
1427
  },
1428
  {
@@ -1430,7 +1431,7 @@
1430
  "output_type": "stream",
1431
  "text": [
1432
  "\r",
1433
- " v5-hs2x-L6-D40 63%[===========> ] 2.04G 48.2MB/s eta 26s "
1434
  ]
1435
  },
1436
  {
@@ -1438,7 +1439,7 @@
1438
  "output_type": "stream",
1439
  "text": [
1440
  "\r",
1441
- " v5-hs2x-L6-D409 64%[===========> ] 2.06G 48.0MB/s eta 25s "
1442
  ]
1443
  },
1444
  {
@@ -1446,7 +1447,7 @@
1446
  "output_type": "stream",
1447
  "text": [
1448
  "\r",
1449
- " v5-hs2x-L6-D4096 65%[============> ] 2.08G 52.1MB/s eta 25s "
1450
  ]
1451
  },
1452
  {
@@ -1454,7 +1455,7 @@
1454
  "output_type": "stream",
1455
  "text": [
1456
  "\r",
1457
- " v5-hs2x-L6-D4096- 65%[============> ] 2.09G 50.3MB/s eta 25s "
1458
  ]
1459
  },
1460
  {
@@ -1462,7 +1463,7 @@
1462
  "output_type": "stream",
1463
  "text": [
1464
  "\r",
1465
- " v5-hs2x-L6-D4096-E 65%[============> ] 2.09G 50.6MB/s eta 25s "
1466
  ]
1467
  },
1468
  {
@@ -1470,7 +1471,7 @@
1470
  "output_type": "stream",
1471
  "text": [
1472
  "\r",
1473
- "v5-hs2x-L6-D4096-E0 65%[============> ] 2.12G 51.2MB/s eta 25s "
1474
  ]
1475
  },
1476
  {
@@ -1478,7 +1479,7 @@
1478
  "output_type": "stream",
1479
  "text": [
1480
  "\r",
1481
- "5-hs2x-L6-D4096-E0_ 66%[============> ] 2.13G 54.5MB/s eta 23s "
1482
  ]
1483
  },
1484
  {
@@ -1486,7 +1487,7 @@
1486
  "output_type": "stream",
1487
  "text": [
1488
  "\r",
1489
- "-hs2x-L6-D4096-E0_1 66%[============> ] 2.14G 52.0MB/s eta 23s "
1490
  ]
1491
  },
1492
  {
@@ -1494,7 +1495,7 @@
1494
  "output_type": "stream",
1495
  "text": [
1496
  "\r",
1497
- "hs2x-L6-D4096-E0_1- 67%[============> ] 2.16G 47.3MB/s eta 23s "
1498
  ]
1499
  },
1500
  {
@@ -1502,7 +1503,7 @@
1502
  "output_type": "stream",
1503
  "text": [
1504
  "\r",
1505
- "s2x-L6-D4096-E0_1-m 67%[============> ] 2.17G 47.3MB/s eta 23s "
1506
  ]
1507
  },
1508
  {
@@ -1510,7 +1511,7 @@
1510
  "output_type": "stream",
1511
  "text": [
1512
  "\r",
1513
- "2x-L6-D4096-E0_1-me 67%[============> ] 2.17G 45.1MB/s eta 23s "
1514
  ]
1515
  },
1516
  {
@@ -1518,7 +1519,7 @@
1518
  "output_type": "stream",
1519
  "text": [
1520
  "\r",
1521
- "x-L6-D4096-E0_1-mem 68%[============> ] 2.19G 45.3MB/s eta 23s "
1522
  ]
1523
  },
1524
  {
@@ -1526,7 +1527,7 @@
1526
  "output_type": "stream",
1527
  "text": [
1528
  "\r",
1529
- "-L6-D4096-E0_1-mem- 68%[============> ] 2.21G 44.4MB/s eta 23s "
1530
  ]
1531
  },
1532
  {
@@ -1534,7 +1535,7 @@
1534
  "output_type": "stream",
1535
  "text": [
1536
  "\r",
1537
- "L6-D4096-E0_1-mem-c 69%[============> ] 2.22G 46.5MB/s eta 21s "
1538
  ]
1539
  },
1540
  {
@@ -1542,7 +1543,7 @@
1542
  "output_type": "stream",
1543
  "text": [
1544
  "\r",
1545
- "6-D4096-E0_1-mem-ct 69%[============> ] 2.23G 46.8MB/s eta 21s "
1546
  ]
1547
  },
1548
  {
@@ -1550,7 +1551,7 @@
1550
  "output_type": "stream",
1551
  "text": [
1552
  "\r",
1553
- "-D4096-E0_1-mem-ctx 70%[=============> ] 2.25G 46.6MB/s eta 21s "
1554
  ]
1555
  },
1556
  {
@@ -1558,7 +1559,7 @@
1558
  "output_type": "stream",
1559
  "text": [
1560
  "\r",
1561
- "D4096-E0_1-mem-ctx- 70%[=============> ] 2.26G 49.4MB/s eta 21s "
1562
  ]
1563
  },
1564
  {
@@ -1566,7 +1567,7 @@
1566
  "output_type": "stream",
1567
  "text": [
1568
  "\r",
1569
- "4096-E0_1-mem-ctx-8 70%[=============> ] 2.27G 47.9MB/s eta 21s "
1570
  ]
1571
  },
1572
  {
@@ -1574,7 +1575,7 @@
1574
  "output_type": "stream",
1575
  "text": [
1576
  "\r",
1577
- "096-E0_1-mem-ctx-8k 71%[=============> ] 2.29G 50.5MB/s eta 20s "
1578
  ]
1579
  },
1580
  {
@@ -1582,7 +1583,7 @@
1582
  "output_type": "stream",
1583
  "text": [
1584
  "\r",
1585
- "96-E0_1-mem-ctx-8k. 71%[=============> ] 2.29G 48.2MB/s eta 20s "
1586
  ]
1587
  },
1588
  {
@@ -1590,7 +1591,7 @@
1590
  "output_type": "stream",
1591
  "text": [
1592
  "\r",
1593
- "6-E0_1-mem-ctx-8k.p 72%[=============> ] 2.31G 47.9MB/s eta 20s "
1594
  ]
1595
  },
1596
  {
@@ -1598,7 +1599,7 @@
1598
  "output_type": "stream",
1599
  "text": [
1600
  "\r",
1601
- "-E0_1-mem-ctx-8k.pt 72%[=============> ] 2.32G 49.1MB/s eta 20s "
1602
  ]
1603
  },
1604
  {
@@ -1606,7 +1607,7 @@
1606
  "output_type": "stream",
1607
  "text": [
1608
  "\r",
1609
- "E0_1-mem-ctx-8k.pth 72%[=============> ] 2.34G 48.2MB/s eta 19s "
1610
  ]
1611
  },
1612
  {
@@ -1614,7 +1615,7 @@
1614
  "output_type": "stream",
1615
  "text": [
1616
  "\r",
1617
- "0_1-mem-ctx-8k.pth 73%[=============> ] 2.35G 47.7MB/s eta 19s "
1618
  ]
1619
  },
1620
  {
@@ -1622,7 +1623,7 @@
1622
  "output_type": "stream",
1623
  "text": [
1624
  "\r",
1625
- "_1-mem-ctx-8k.pth 73%[=============> ] 2.37G 54.0MB/s eta 19s "
1626
  ]
1627
  },
1628
  {
@@ -1630,7 +1631,7 @@
1630
  "output_type": "stream",
1631
  "text": [
1632
  "\r",
1633
- "1-mem-ctx-8k.pth 73%[=============> ] 2.37G 52.6MB/s eta 19s "
1634
  ]
1635
  },
1636
  {
@@ -1638,7 +1639,7 @@
1638
  "output_type": "stream",
1639
  "text": [
1640
  "\r",
1641
- "-mem-ctx-8k.pth 74%[=============> ] 2.38G 52.6MB/s eta 19s "
1642
  ]
1643
  },
1644
  {
@@ -1646,7 +1647,7 @@
1646
  "output_type": "stream",
1647
  "text": [
1648
  "\r",
1649
- "mem-ctx-8k.pth 75%[==============> ] 2.41G 56.4MB/s eta 17s "
1650
  ]
1651
  },
1652
  {
@@ -1654,7 +1655,7 @@
1654
  "output_type": "stream",
1655
  "text": [
1656
  "\r",
1657
- "em-ctx-8k.pth 75%[==============> ] 2.42G 56.0MB/s eta 17s "
1658
  ]
1659
  },
1660
  {
@@ -1662,7 +1663,7 @@
1662
  "output_type": "stream",
1663
  "text": [
1664
  "\r",
1665
- "m-ctx-8k.pth 75%[==============> ] 2.43G 52.6MB/s eta 17s "
1666
  ]
1667
  },
1668
  {
@@ -1670,7 +1671,7 @@
1670
  "output_type": "stream",
1671
  "text": [
1672
  "\r",
1673
- "-ctx-8k.pth 75%[==============> ] 2.43G 53.3MB/s eta 17s "
1674
  ]
1675
  },
1676
  {
@@ -1678,7 +1679,7 @@
1678
  "output_type": "stream",
1679
  "text": [
1680
  "\r",
1681
- "ctx-8k.pth 76%[==============> ] 2.44G 51.4MB/s eta 17s "
1682
  ]
1683
  },
1684
  {
@@ -1686,7 +1687,7 @@
1686
  "output_type": "stream",
1687
  "text": [
1688
  "\r",
1689
- "tx-8k.pth 77%[==============> ] 2.47G 55.4MB/s eta 16s "
1690
  ]
1691
  },
1692
  {
@@ -1694,7 +1695,7 @@
1694
  "output_type": "stream",
1695
  "text": [
1696
  "\r",
1697
- "x-8k.pth 77%[==============> ] 2.49G 55.4MB/s eta 16s "
1698
  ]
1699
  },
1700
  {
@@ -1702,7 +1703,7 @@
1702
  "output_type": "stream",
1703
  "text": [
1704
  "\r",
1705
- "-8k.pth 77%[==============> ] 2.49G 52.9MB/s eta 16s "
1706
  ]
1707
  },
1708
  {
@@ -1710,7 +1711,7 @@
1710
  "output_type": "stream",
1711
  "text": [
1712
  "\r",
1713
- "8k.pth 78%[==============> ] 2.50G 54.4MB/s eta 16s "
1714
  ]
1715
  },
1716
  {
@@ -1718,7 +1719,7 @@
1718
  "output_type": "stream",
1719
  "text": [
1720
  "\r",
1721
- "k.pth 78%[==============> ] 2.50G 52.2MB/s eta 16s "
1722
  ]
1723
  },
1724
  {
@@ -1726,7 +1727,7 @@
1726
  "output_type": "stream",
1727
  "text": [
1728
  "\r",
1729
- ".pth 78%[==============> ] 2.52G 52.0MB/s eta 15s "
1730
  ]
1731
  },
1732
  {
@@ -1734,7 +1735,7 @@
1734
  "output_type": "stream",
1735
  "text": [
1736
  "\r",
1737
- "pth 79%[==============> ] 2.53G 51.8MB/s eta 15s "
1738
  ]
1739
  },
1740
  {
@@ -1742,7 +1743,7 @@
1742
  "output_type": "stream",
1743
  "text": [
1744
  "\r",
1745
- "th 79%[==============> ] 2.55G 51.8MB/s eta 15s "
1746
  ]
1747
  },
1748
  {
@@ -1750,7 +1751,7 @@
1750
  "output_type": "stream",
1751
  "text": [
1752
  "\r",
1753
- "h 79%[==============> ] 2.56G 51.4MB/s eta 15s "
1754
  ]
1755
  },
1756
  {
@@ -1758,7 +1759,7 @@
1758
  "output_type": "stream",
1759
  "text": [
1760
  "\r",
1761
- " 80%[===============> ] 2.57G 51.6MB/s eta 15s "
1762
  ]
1763
  },
1764
  {
@@ -1766,7 +1767,7 @@
1766
  "output_type": "stream",
1767
  "text": [
1768
  "\r",
1769
- " v 80%[===============> ] 2.59G 55.8MB/s eta 13s "
1770
  ]
1771
  },
1772
  {
@@ -1774,7 +1775,7 @@
1774
  "output_type": "stream",
1775
  "text": [
1776
  "\r",
1777
- " v5 81%[===============> ] 2.61G 55.7MB/s eta 13s "
1778
  ]
1779
  },
1780
  {
@@ -1782,7 +1783,7 @@
1782
  "output_type": "stream",
1783
  "text": [
1784
  "\r",
1785
- " v5- 81%[===============> ] 2.62G 50.9MB/s eta 13s "
1786
  ]
1787
  },
1788
  {
@@ -1790,7 +1791,7 @@
1790
  "output_type": "stream",
1791
  "text": [
1792
  "\r",
1793
- " v5-h 81%[===============> ] 2.62G 52.0MB/s eta 13s "
1794
  ]
1795
  },
1796
  {
@@ -1798,7 +1799,7 @@
1798
  "output_type": "stream",
1799
  "text": [
1800
  "\r",
1801
- " v5-hs 82%[===============> ] 2.65G 54.2MB/s eta 12s "
1802
  ]
1803
  },
1804
  {
@@ -1806,7 +1807,7 @@
1806
  "output_type": "stream",
1807
  "text": [
1808
  "\r",
1809
- " v5-hs2 83%[===============> ] 2.67G 56.3MB/s eta 12s "
1810
  ]
1811
  },
1812
  {
@@ -1814,7 +1815,7 @@
1814
  "output_type": "stream",
1815
  "text": [
1816
  "\r",
1817
- " v5-hs2x 83%[===============> ] 2.67G 54.9MB/s eta 12s "
1818
  ]
1819
  },
1820
  {
@@ -1822,7 +1823,7 @@
1822
  "output_type": "stream",
1823
  "text": [
1824
  "\r",
1825
- " v5-hs2x- 83%[===============> ] 2.68G 56.5MB/s eta 12s "
1826
  ]
1827
  },
1828
  {
@@ -1830,7 +1831,7 @@
1830
  "output_type": "stream",
1831
  "text": [
1832
  "\r",
1833
- " v5-hs2x-L 84%[===============> ] 2.70G 55.0MB/s eta 12s "
1834
  ]
1835
  },
1836
  {
@@ -1838,7 +1839,7 @@
1838
  "output_type": "stream",
1839
  "text": [
1840
  "\r",
1841
- " v5-hs2x-L6 84%[===============> ] 2.71G 54.5MB/s eta 11s "
1842
  ]
1843
  },
1844
  {
@@ -1846,7 +1847,7 @@
1846
  "output_type": "stream",
1847
  "text": [
1848
  "\r",
1849
- " v5-hs2x-L6- 84%[===============> ] 2.71G 53.3MB/s eta 11s "
1850
  ]
1851
  },
1852
  {
@@ -1854,7 +1855,7 @@
1854
  "output_type": "stream",
1855
  "text": [
1856
  "\r",
1857
- " v5-hs2x-L6-D 85%[================> ] 2.73G 54.8MB/s eta 11s "
1858
  ]
1859
  },
1860
  {
@@ -1862,7 +1863,7 @@
1862
  "output_type": "stream",
1863
  "text": [
1864
  "\r",
1865
- " v5-hs2x-L6-D4 85%[================> ] 2.74G 54.8MB/s eta 11s "
1866
  ]
1867
  },
1868
  {
@@ -1870,7 +1871,7 @@
1870
  "output_type": "stream",
1871
  "text": [
1872
  "\r",
1873
- " v5-hs2x-L6-D40 86%[================> ] 2.76G 51.6MB/s eta 9s "
1874
  ]
1875
  },
1876
  {
@@ -1878,7 +1879,7 @@
1878
  "output_type": "stream",
1879
  "text": [
1880
  "\r",
1881
- " v5-hs2x-L6-D409 86%[================> ] 2.77G 53.2MB/s eta 9s "
1882
  ]
1883
  },
1884
  {
@@ -1886,7 +1887,7 @@
1886
  "output_type": "stream",
1887
  "text": [
1888
  "\r",
1889
- " v5-hs2x-L6-D4096 86%[================> ] 2.77G 50.1MB/s eta 9s "
1890
  ]
1891
  },
1892
  {
@@ -1894,7 +1895,7 @@
1894
  "output_type": "stream",
1895
  "text": [
1896
  "\r",
1897
- " v5-hs2x-L6-D4096- 86%[================> ] 2.79G 48.3MB/s eta 9s "
1898
  ]
1899
  },
1900
  {
@@ -1902,7 +1903,7 @@
1902
  "output_type": "stream",
1903
  "text": [
1904
  "\r",
1905
- " v5-hs2x-L6-D4096-E 87%[================> ] 2.80G 49.4MB/s eta 9s "
1906
  ]
1907
  },
1908
  {
@@ -1910,7 +1911,7 @@
1910
  "output_type": "stream",
1911
  "text": [
1912
  "\r",
1913
- "v5-hs2x-L6-D4096-E0 87%[================> ] 2.82G 46.2MB/s eta 9s "
1914
  ]
1915
  },
1916
  {
@@ -1918,7 +1919,7 @@
1918
  "output_type": "stream",
1919
  "text": [
1920
  "\r",
1921
- "5-hs2x-L6-D4096-E0_ 88%[================> ] 2.83G 45.8MB/s eta 9s "
1922
  ]
1923
  },
1924
  {
@@ -1926,7 +1927,7 @@
1926
  "output_type": "stream",
1927
  "text": [
1928
  "\r",
1929
- "-hs2x-L6-D4096-E0_1 88%[================> ] 2.85G 47.6MB/s eta 9s "
1930
  ]
1931
  },
1932
  {
@@ -1934,7 +1935,7 @@
1934
  "output_type": "stream",
1935
  "text": [
1936
  "\r",
1937
- "hs2x-L6-D4096-E0_1- 89%[================> ] 2.86G 46.2MB/s eta 7s "
1938
  ]
1939
  },
1940
  {
@@ -1942,7 +1943,7 @@
1942
  "output_type": "stream",
1943
  "text": [
1944
  "\r",
1945
- "s2x-L6-D4096-E0_1-m 89%[================> ] 2.88G 48.9MB/s eta 7s "
1946
  ]
1947
  },
1948
  {
@@ -1950,7 +1951,7 @@
1950
  "output_type": "stream",
1951
  "text": [
1952
  "\r",
1953
- "2x-L6-D4096-E0_1-me 90%[=================> ] 2.89G 44.3MB/s eta 7s "
1954
  ]
1955
  },
1956
  {
@@ -1958,7 +1959,7 @@
1958
  "output_type": "stream",
1959
  "text": [
1960
  "\r",
1961
- "x-L6-D4096-E0_1-mem 90%[=================> ] 2.89G 42.7MB/s eta 7s "
1962
  ]
1963
  },
1964
  {
@@ -1966,7 +1967,7 @@
1966
  "output_type": "stream",
1967
  "text": [
1968
  "\r",
1969
- "-L6-D4096-E0_1-mem- 90%[=================> ] 2.91G 42.9MB/s eta 7s "
1970
  ]
1971
  },
1972
  {
@@ -1974,7 +1975,7 @@
1974
  "output_type": "stream",
1975
  "text": [
1976
  "\r",
1977
- "L6-D4096-E0_1-mem-c 91%[=================> ] 2.92G 43.5MB/s eta 7s "
1978
  ]
1979
  },
1980
  {
@@ -1982,7 +1983,7 @@
1982
  "output_type": "stream",
1983
  "text": [
1984
  "\r",
1985
- "6-D4096-E0_1-mem-ct 91%[=================> ] 2.93G 43.7MB/s eta 7s "
1986
  ]
1987
  },
1988
  {
@@ -1990,7 +1991,7 @@
1990
  "output_type": "stream",
1991
  "text": [
1992
  "\r",
1993
- "-D4096-E0_1-mem-ctx 92%[=================> ] 2.95G 46.7MB/s eta 5s "
1994
  ]
1995
  },
1996
  {
@@ -1998,7 +1999,7 @@
1998
  "output_type": "stream",
1999
  "text": [
2000
  "\r",
2001
- "D4096-E0_1-mem-ctx- 92%[=================> ] 2.97G 50.0MB/s eta 5s "
2002
  ]
2003
  },
2004
  {
@@ -2006,7 +2007,7 @@
2006
  "output_type": "stream",
2007
  "text": [
2008
  "\r",
2009
- "4096-E0_1-mem-ctx-8 93%[=================> ] 2.98G 52.4MB/s eta 5s "
2010
  ]
2011
  },
2012
  {
@@ -2014,7 +2015,7 @@
2014
  "output_type": "stream",
2015
  "text": [
2016
  "\r",
2017
- "096-E0_1-mem-ctx-8k 93%[=================> ] 2.99G 50.7MB/s eta 5s "
2018
  ]
2019
  },
2020
  {
@@ -2022,7 +2023,7 @@
2022
  "output_type": "stream",
2023
  "text": [
2024
  "\r",
2025
- "96-E0_1-mem-ctx-8k. 93%[=================> ] 3.01G 50.3MB/s eta 5s "
2026
  ]
2027
  },
2028
  {
@@ -2030,7 +2031,7 @@
2030
  "output_type": "stream",
2031
  "text": [
2032
  "\r",
2033
- "6-E0_1-mem-ctx-8k.p 93%[=================> ] 3.01G 50.1MB/s eta 4s "
2034
  ]
2035
  },
2036
  {
@@ -2038,7 +2039,7 @@
2038
  "output_type": "stream",
2039
  "text": [
2040
  "\r",
2041
- "-E0_1-mem-ctx-8k.pt 94%[=================> ] 3.02G 51.6MB/s eta 4s "
2042
  ]
2043
  },
2044
  {
@@ -2046,7 +2047,7 @@
2046
  "output_type": "stream",
2047
  "text": [
2048
  "\r",
2049
- "E0_1-mem-ctx-8k.pth 95%[==================> ] 3.05G 52.7MB/s eta 4s "
2050
  ]
2051
  },
2052
  {
@@ -2054,7 +2055,7 @@
2054
  "output_type": "stream",
2055
  "text": [
2056
  "\r",
2057
- "0_1-mem-ctx-8k.pth 95%[==================> ] 3.05G 49.5MB/s eta 4s "
2058
  ]
2059
  },
2060
  {
@@ -2062,7 +2063,7 @@
2062
  "output_type": "stream",
2063
  "text": [
2064
  "\r",
2065
- "_1-mem-ctx-8k.pth 95%[==================> ] 3.06G 48.1MB/s eta 4s "
2066
  ]
2067
  },
2068
  {
@@ -2070,7 +2071,7 @@
2070
  "output_type": "stream",
2071
  "text": [
2072
  "\r",
2073
- "1-mem-ctx-8k.pth 95%[==================> ] 3.07G 48.9MB/s eta 3s "
2074
  ]
2075
  },
2076
  {
@@ -2078,7 +2079,7 @@
2078
  "output_type": "stream",
2079
  "text": [
2080
  "\r",
2081
- "-mem-ctx-8k.pth 96%[==================> ] 3.08G 51.5MB/s eta 3s "
2082
  ]
2083
  },
2084
  {
@@ -2086,7 +2087,7 @@
2086
  "output_type": "stream",
2087
  "text": [
2088
  "\r",
2089
- "mem-ctx-8k.pth 96%[==================> ] 3.09G 51.4MB/s eta 3s "
2090
  ]
2091
  },
2092
  {
@@ -2094,7 +2095,7 @@
2094
  "output_type": "stream",
2095
  "text": [
2096
  "\r",
2097
- "em-ctx-8k.pth 96%[==================> ] 3.10G 49.1MB/s eta 3s "
2098
  ]
2099
  },
2100
  {
@@ -2102,7 +2103,7 @@
2102
  "output_type": "stream",
2103
  "text": [
2104
  "\r",
2105
- "m-ctx-8k.pth 97%[==================> ] 3.11G 51.1MB/s eta 2s "
2106
  ]
2107
  },
2108
  {
@@ -2110,7 +2111,7 @@
2110
  "output_type": "stream",
2111
  "text": [
2112
  "\r",
2113
- "-ctx-8k.pth 97%[==================> ] 3.13G 49.6MB/s eta 2s "
2114
  ]
2115
  },
2116
  {
@@ -2118,7 +2119,7 @@
2118
  "output_type": "stream",
2119
  "text": [
2120
  "\r",
2121
- "ctx-8k.pth 98%[==================> ] 3.14G 49.6MB/s eta 2s "
2122
  ]
2123
  },
2124
  {
@@ -2126,7 +2127,7 @@
2126
  "output_type": "stream",
2127
  "text": [
2128
  "\r",
2129
- "tx-8k.pth 98%[==================> ] 3.14G 48.5MB/s eta 2s "
2130
  ]
2131
  },
2132
  {
@@ -2134,7 +2135,7 @@
2134
  "output_type": "stream",
2135
  "text": [
2136
  "\r",
2137
- "x-8k.pth 98%[==================> ] 3.16G 46.8MB/s eta 2s "
2138
  ]
2139
  },
2140
  {
@@ -2142,7 +2143,7 @@
2142
  "output_type": "stream",
2143
  "text": [
2144
  "\r",
2145
- "-8k.pth 98%[==================> ] 3.17G 47.2MB/s eta 1s "
2146
  ]
2147
  },
2148
  {
@@ -2150,7 +2151,7 @@
2150
  "output_type": "stream",
2151
  "text": [
2152
  "\r",
2153
- "8k.pth 99%[==================> ] 3.18G 47.1MB/s eta 1s "
2154
  ]
2155
  },
2156
  {
@@ -2158,7 +2159,7 @@
2158
  "output_type": "stream",
2159
  "text": [
2160
  "\r",
2161
- "k.pth 99%[==================> ] 3.19G 46.1MB/s eta 1s "
2162
  ]
2163
  },
2164
  {
@@ -2166,10 +2167,42 @@
2166
  "output_type": "stream",
2167
  "text": [
2168
  "\r",
2169
- ".pth 99%[==================> ] 3.20G 49.3MB/s eta 1s \r",
2170
- "v5-hs2x-L6-D4096-E0 100%[===================>] 3.21G 49.6MB/s in 68s \r\n",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2171
  "\r\n",
2172
- "2023-08-25 18:14:12 (48.3 MB/s) - ‘v5-hs2x-L6-D4096-E0_1-mem-ctx-8k.pth’ saved [3441599109/3441599109]\r\n",
2173
  "\r\n"
2174
  ]
2175
  }
@@ -2183,19 +2216,19 @@
2183
  {
2184
  "cell_type": "code",
2185
  "execution_count": 2,
2186
- "id": "f0d4b8a8",
2187
  "metadata": {
2188
  "execution": {
2189
- "iopub.execute_input": "2023-08-25T18:14:12.521024Z",
2190
- "iopub.status.busy": "2023-08-25T18:14:12.520099Z",
2191
- "iopub.status.idle": "2023-08-25T18:14:12.772300Z",
2192
- "shell.execute_reply": "2023-08-25T18:14:12.771216Z"
2193
  },
2194
  "papermill": {
2195
- "duration": 0.272197,
2196
- "end_time": "2023-08-25T18:14:12.774408",
2197
  "exception": false,
2198
- "start_time": "2023-08-25T18:14:12.502211",
2199
  "status": "completed"
2200
  },
2201
  "tags": []
@@ -2217,19 +2250,19 @@
2217
  {
2218
  "cell_type": "code",
2219
  "execution_count": 3,
2220
- "id": "9117b2b1",
2221
  "metadata": {
2222
  "execution": {
2223
- "iopub.execute_input": "2023-08-25T18:14:12.809567Z",
2224
- "iopub.status.busy": "2023-08-25T18:14:12.808669Z",
2225
- "iopub.status.idle": "2023-08-25T18:14:13.062795Z",
2226
- "shell.execute_reply": "2023-08-25T18:14:13.061717Z"
2227
  },
2228
  "papermill": {
2229
- "duration": 0.274291,
2230
- "end_time": "2023-08-25T18:14:13.064890",
2231
  "exception": false,
2232
- "start_time": "2023-08-25T18:14:12.790599",
2233
  "status": "completed"
2234
  },
2235
  "tags": []
@@ -2249,37 +2282,37 @@
2249
  },
2250
  {
2251
  "cell_type": "markdown",
2252
- "id": "fd51d3a7",
2253
  "metadata": {
2254
  "papermill": {
2255
- "duration": 0.016134,
2256
- "end_time": "2023-08-25T18:14:13.097474",
2257
  "exception": false,
2258
- "start_time": "2023-08-25T18:14:13.081340",
2259
  "status": "completed"
2260
  },
2261
  "tags": []
2262
  },
2263
  "source": [
2264
- "# 1B5 V5 benchmark"
2265
  ]
2266
  },
2267
  {
2268
  "cell_type": "code",
2269
  "execution_count": 4,
2270
- "id": "9057d55b",
2271
  "metadata": {
2272
  "execution": {
2273
- "iopub.execute_input": "2023-08-25T18:14:13.132779Z",
2274
- "iopub.status.busy": "2023-08-25T18:14:13.131818Z",
2275
- "iopub.status.idle": "2023-08-25T18:15:27.785714Z",
2276
- "shell.execute_reply": "2023-08-25T18:15:27.784647Z"
2277
  },
2278
  "papermill": {
2279
- "duration": 74.674403,
2280
- "end_time": "2023-08-25T18:15:27.788104",
2281
  "exception": false,
2282
- "start_time": "2023-08-25T18:14:13.113701",
2283
  "status": "completed"
2284
  },
2285
  "tags": []
@@ -2289,7 +2322,7 @@
2289
  "name": "stdout",
2290
  "output_type": "stream",
2291
  "text": [
2292
- "[2023-08-25 18:14:17,673] [INFO] [real_accelerator.py:133:get_accelerator] Setting ds_accelerator to cuda (auto detect)\r\n"
2293
  ]
2294
  },
2295
  {
@@ -2781,13 +2814,7 @@
2781
  "name": "stdout",
2782
  "output_type": "stream",
2783
  "text": [
2784
- "## Finished baseline model to eval output predictive matching (aka 0 memory?), for 1000 tokens\r\n"
2785
- ]
2786
- },
2787
- {
2788
- "name": "stdout",
2789
- "output_type": "stream",
2790
- "text": [
2791
  "###\r\n",
2792
  "### Model validation end ###\r\n",
2793
  "###\r\n"
@@ -2801,19 +2828,19 @@
2801
  {
2802
  "cell_type": "code",
2803
  "execution_count": 5,
2804
- "id": "20631917",
2805
  "metadata": {
2806
  "execution": {
2807
- "iopub.execute_input": "2023-08-25T18:15:27.831092Z",
2808
- "iopub.status.busy": "2023-08-25T18:15:27.830126Z",
2809
- "iopub.status.idle": "2023-08-25T18:19:42.015564Z",
2810
- "shell.execute_reply": "2023-08-25T18:19:42.014647Z"
2811
  },
2812
  "papermill": {
2813
- "duration": 254.209987,
2814
- "end_time": "2023-08-25T18:19:42.018034",
2815
  "exception": false,
2816
- "start_time": "2023-08-25T18:15:27.808047",
2817
  "status": "completed"
2818
  },
2819
  "tags": []
@@ -2823,7 +2850,7 @@
2823
  "name": "stdout",
2824
  "output_type": "stream",
2825
  "text": [
2826
- "[2023-08-25 18:15:32,415] [INFO] [real_accelerator.py:133:get_accelerator] Setting ds_accelerator to cuda (auto detect)\r\n"
2827
  ]
2828
  },
2829
  {
@@ -3252,7 +3279,13 @@
3252
  "name": "stdout",
3253
  "output_type": "stream",
3254
  "text": [
3255
- "## Model validation for 4000 tokens : 28.025% similarity, with 1121 matched token, and 2879 token mismatch\r\n",
 
 
 
 
 
 
3256
  "###\r\n",
3257
  "### Model validation end ###\r\n",
3258
  "###\r\n"
@@ -3266,19 +3299,19 @@
3266
  {
3267
  "cell_type": "code",
3268
  "execution_count": 6,
3269
- "id": "0ea3fdfd",
3270
  "metadata": {
3271
  "execution": {
3272
- "iopub.execute_input": "2023-08-25T18:19:42.074848Z",
3273
- "iopub.status.busy": "2023-08-25T18:19:42.074090Z",
3274
- "iopub.status.idle": "2023-08-25T19:21:09.033195Z",
3275
- "shell.execute_reply": "2023-08-25T19:21:09.032367Z"
3276
  },
3277
  "papermill": {
3278
- "duration": 3686.98662,
3279
- "end_time": "2023-08-25T19:21:09.035206",
3280
  "exception": false,
3281
- "start_time": "2023-08-25T18:19:42.048586",
3282
  "status": "completed"
3283
  },
3284
  "tags": []
@@ -3288,7 +3321,7 @@
3288
  "name": "stdout",
3289
  "output_type": "stream",
3290
  "text": [
3291
- "[2023-08-25 18:19:46,719] [INFO] [real_accelerator.py:133:get_accelerator] Setting ds_accelerator to cuda (auto detect)\r\n"
3292
  ]
3293
  },
3294
  {
@@ -4182,14 +4215,14 @@
4182
  },
4183
  "papermill": {
4184
  "default_parameters": {},
4185
- "duration": 4086.862551,
4186
- "end_time": "2023-08-25T19:21:09.390101",
4187
  "environment_variables": {},
4188
  "exception": null,
4189
  "input_path": "/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/memory-bench/Benchmark-V5headsize2x.ipynb",
4190
  "output_path": "/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/output/experiment/memory-bench/Benchmark-V5headsize2x.ipynb",
4191
  "parameters": {},
4192
- "start_time": "2023-08-25T18:13:02.527550",
4193
  "version": "2.4.0"
4194
  }
4195
  },
 
2
  "cells": [
3
  {
4
  "cell_type": "markdown",
5
+ "id": "8f5f2ffe",
6
  "metadata": {
7
  "papermill": {
8
+ "duration": 0.002629,
9
+ "end_time": "2023-08-26T01:23:07.096418",
10
  "exception": false,
11
+ "start_time": "2023-08-26T01:23:07.093789",
12
  "status": "completed"
13
  },
14
  "tags": []
 
22
  {
23
  "cell_type": "code",
24
  "execution_count": 1,
25
+ "id": "5e19b2cd",
26
  "metadata": {
27
  "execution": {
28
+ "iopub.execute_input": "2023-08-26T01:23:07.102616Z",
29
+ "iopub.status.busy": "2023-08-26T01:23:07.102019Z",
30
+ "iopub.status.idle": "2023-08-26T01:24:15.273307Z",
31
+ "shell.execute_reply": "2023-08-26T01:24:15.272409Z"
32
  },
33
  "papermill": {
34
+ "duration": 68.176689,
35
+ "end_time": "2023-08-26T01:24:15.275361",
36
  "exception": false,
37
+ "start_time": "2023-08-26T01:23:07.098672",
38
  "status": "completed"
39
  },
40
  "tags": []
 
44
  "name": "stdout",
45
  "output_type": "stream",
46
  "text": [
47
+ "--2023-08-26 01:23:07-- https://huggingface.co/rwkv-x-dev/rwkv-x-playground/resolve/main/experiment/rwkv-x-exp/v5-headsize2x/v5-hs2x-L6-D4096-E0_1-mem-ctx-8k.pth\r\n",
48
+ "Resolving huggingface.co (huggingface.co)... 18.154.227.67, 18.154.227.69, 18.154.227.87, ...\r\n",
49
+ "Connecting to huggingface.co (huggingface.co)|18.154.227.67|:443... connected.\r\n",
50
  "HTTP request sent, awaiting response... 302 Found\r\n",
51
+ "Location: https://cdn-lfs.huggingface.co/repos/2e/f7/2ef78555202aa92abdbdf476ce3d0fd5a8b15f7245edf0b80d4d30572355f30d/fae9799e56fd469c6c1694dae6ae77f78130c06d340e945a3dc8e8ea2bd4e5bb?response-content-disposition=attachment%3B+filename*%3DUTF-8%27%27v5-hs2x-L6-D4096-E0_1-mem-ctx-8k.pth%3B+filename%3D%22v5-hs2x-L6-D4096-E0_1-mem-ctx-8k.pth%22%3B&Expires=1693272187&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTY5MzI3MjE4N319LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy5odWdnaW5nZmFjZS5jby9yZXBvcy8yZS9mNy8yZWY3ODU1NTIwMmFhOTJhYmRiZGY0NzZjZTNkMGZkNWE4YjE1ZjcyNDVlZGYwYjgwZDRkMzA1NzIzNTVmMzBkL2ZhZTk3OTllNTZmZDQ2OWM2YzE2OTRkYWU2YWU3N2Y3ODEzMGMwNmQzNDBlOTQ1YTNkYzhlOGVhMmJkNGU1YmI%7EcmVzcG9uc2UtY29udGVudC1kaXNwb3NpdGlvbj0qIn1dfQ__&Signature=y4AlHINm1RFbemOtm%7ER7DeItTbEeD1%7ECx1PV7P%7EEJjhErMBHqakRcU%7EM25XaFxRLsfQAC0Vv-ZS6DxiWkUQlW4Ku6kuOoU2cdCSvonLreanJ2ZRA-%7EZmrsX7Fi5lNhkuA9SEaeQTAQCCx1C-mc82E6LWXduPSnJy4ZcHFl-vWY2MT5kTLTuzEnyqfszLzVzw5Hd9RyewdNyLpKnoyoQO1fi5hAFnZacM72uhhIa7aGvI5ciXe4bsjg37RDw87fDdX3TRoxl3jadcJbxOGBguIwp5nbBdU6gVQSThsBgLUb4k6tAfVVlVG5XHaIjWRXaNy7A6oiyd9heIEmRyRvVZJQ__&Key-Pair-Id=KVTP0A1DKRTAX [following]\r\n",
52
+ "--2023-08-26 01:23:07-- https://cdn-lfs.huggingface.co/repos/2e/f7/2ef78555202aa92abdbdf476ce3d0fd5a8b15f7245edf0b80d4d30572355f30d/fae9799e56fd469c6c1694dae6ae77f78130c06d340e945a3dc8e8ea2bd4e5bb?response-content-disposition=attachment%3B+filename*%3DUTF-8%27%27v5-hs2x-L6-D4096-E0_1-mem-ctx-8k.pth%3B+filename%3D%22v5-hs2x-L6-D4096-E0_1-mem-ctx-8k.pth%22%3B&Expires=1693272187&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTY5MzI3MjE4N319LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy5odWdnaW5nZmFjZS5jby9yZXBvcy8yZS9mNy8yZWY3ODU1NTIwMmFhOTJhYmRiZGY0NzZjZTNkMGZkNWE4YjE1ZjcyNDVlZGYwYjgwZDRkMzA1NzIzNTVmMzBkL2ZhZTk3OTllNTZmZDQ2OWM2YzE2OTRkYWU2YWU3N2Y3ODEzMGMwNmQzNDBlOTQ1YTNkYzhlOGVhMmJkNGU1YmI%7EcmVzcG9uc2UtY29udGVudC1kaXNwb3NpdGlvbj0qIn1dfQ__&Signature=y4AlHINm1RFbemOtm%7ER7DeItTbEeD1%7ECx1PV7P%7EEJjhErMBHqakRcU%7EM25XaFxRLsfQAC0Vv-ZS6DxiWkUQlW4Ku6kuOoU2cdCSvonLreanJ2ZRA-%7EZmrsX7Fi5lNhkuA9SEaeQTAQCCx1C-mc82E6LWXduPSnJy4ZcHFl-vWY2MT5kTLTuzEnyqfszLzVzw5Hd9RyewdNyLpKnoyoQO1fi5hAFnZacM72uhhIa7aGvI5ciXe4bsjg37RDw87fDdX3TRoxl3jadcJbxOGBguIwp5nbBdU6gVQSThsBgLUb4k6tAfVVlVG5XHaIjWRXaNy7A6oiyd9heIEmRyRvVZJQ__&Key-Pair-Id=KVTP0A1DKRTAX\r\n",
53
+ "Resolving cdn-lfs.huggingface.co (cdn-lfs.huggingface.co)... "
 
54
  ]
55
  },
56
  {
57
  "name": "stdout",
58
  "output_type": "stream",
59
  "text": [
60
+ "108.138.64.111, 108.138.64.36, 108.138.64.121, ...\r\n",
61
+ "Connecting to cdn-lfs.huggingface.co (cdn-lfs.huggingface.co)|108.138.64.111|:443... connected.\r\n",
62
  "HTTP request sent, awaiting response... "
63
  ]
64
  },
 
79
  "output_type": "stream",
80
  "text": [
81
  "\r",
82
+ " v5-hs2x-L6 0%[ ] 14.74M 64.4MB/s "
83
  ]
84
  },
85
  {
 
87
  "output_type": "stream",
88
  "text": [
89
  "\r",
90
+ " v5-hs2x-L6- 0%[ ] 17.60M 41.0MB/s "
91
  ]
92
  },
93
  {
 
95
  "output_type": "stream",
96
  "text": [
97
  "\r",
98
+ " v5-hs2x-L6-D 0%[ ] 30.52M 41.5MB/s "
99
  ]
100
  },
101
  {
 
103
  "output_type": "stream",
104
  "text": [
105
  "\r",
106
+ " v5-hs2x-L6-D4 1%[ ] 52.47M 55.7MB/s "
107
  ]
108
  },
109
  {
 
111
  "output_type": "stream",
112
  "text": [
113
  "\r",
114
+ " v5-hs2x-L6-D40 1%[ ] 61.03M 51.7MB/s "
115
  ]
116
  },
117
  {
 
119
  "output_type": "stream",
120
  "text": [
121
  "\r",
122
+ " v5-hs2x-L6-D409 2%[ ] 75.78M 52.3MB/s "
123
  ]
124
  },
125
  {
 
127
  "output_type": "stream",
128
  "text": [
129
  "\r",
130
+ " v5-hs2x-L6-D4096 2%[ ] 91.03M 52.7MB/s "
131
  ]
132
  },
133
  {
 
135
  "output_type": "stream",
136
  "text": [
137
  "\r",
138
+ " v5-hs2x-L6-D4096- 3%[ ] 106.29M 54.8MB/s "
139
  ]
140
  },
141
  {
 
143
  "output_type": "stream",
144
  "text": [
145
  "\r",
146
+ " v5-hs2x-L6-D4096-E 3%[ ] 109.17M 51.0MB/s "
147
  ]
148
  },
149
  {
 
151
  "output_type": "stream",
152
  "text": [
153
  "\r",
154
+ "v5-hs2x-L6-D4096-E0 3%[ ] 122.07M 52.0MB/s "
155
  ]
156
  },
157
  {
 
159
  "output_type": "stream",
160
  "text": [
161
  "\r",
162
+ "5-hs2x-L6-D4096-E0_ 4%[ ] 136.81M 53.2MB/s "
163
  ]
164
  },
165
  {
 
167
  "output_type": "stream",
168
  "text": [
169
  "\r",
170
+ "-hs2x-L6-D4096-E0_1 4%[ ] 147.28M 53.1MB/s "
171
  ]
172
  },
173
  {
 
175
  "output_type": "stream",
176
  "text": [
177
  "\r",
178
+ "hs2x-L6-D4096-E0_1- 4%[ ] 152.59M 49.3MB/s eta 63s "
179
  ]
180
  },
181
  {
 
183
  "output_type": "stream",
184
  "text": [
185
  "\r",
186
+ "s2x-L6-D4096-E0_1-m 5%[> ] 167.80M 51.0MB/s eta 63s "
187
  ]
188
  },
189
  {
 
191
  "output_type": "stream",
192
  "text": [
193
  "\r",
194
+ "2x-L6-D4096-E0_1-me 5%[> ] 174.32M 49.9MB/s eta 63s "
195
  ]
196
  },
197
  {
 
199
  "output_type": "stream",
200
  "text": [
201
  "\r",
202
+ "x-L6-D4096-E0_1-mem 5%[> ] 183.10M 49.5MB/s eta 63s "
203
  ]
204
  },
205
  {
 
207
  "output_type": "stream",
208
  "text": [
209
  "\r",
210
+ "-L6-D4096-E0_1-mem- 6%[> ] 198.36M 49.7MB/s eta 63s "
211
  ]
212
  },
213
  {
 
215
  "output_type": "stream",
216
  "text": [
217
  "\r",
218
+ "L6-D4096-E0_1-mem-c 6%[> ] 213.11M 51.5MB/s eta 61s "
219
  ]
220
  },
221
  {
 
223
  "output_type": "stream",
224
  "text": [
225
  "\r",
226
+ "6-D4096-E0_1-mem-ct 6%[> ] 220.57M 49.0MB/s eta 61s "
227
  ]
228
  },
229
  {
 
231
  "output_type": "stream",
232
  "text": [
233
  "\r",
234
+ "-D4096-E0_1-mem-ctx 6%[> ] 228.87M 49.8MB/s eta 61s "
235
  ]
236
  },
237
  {
 
239
  "output_type": "stream",
240
  "text": [
241
  "\r",
242
+ "D4096-E0_1-mem-ctx- 7%[> ] 244.13M 48.5MB/s eta 61s "
243
  ]
244
  },
245
  {
 
247
  "output_type": "stream",
248
  "text": [
249
  "\r",
250
+ "4096-E0_1-mem-ctx-8 8%[> ] 263.16M 51.4MB/s eta 61s "
251
  ]
252
  },
253
  {
 
255
  "output_type": "stream",
256
  "text": [
257
  "\r",
258
+ "096-E0_1-mem-ctx-8k 8%[> ] 274.66M 50.4MB/s eta 60s "
259
  ]
260
  },
261
  {
 
263
  "output_type": "stream",
264
  "text": [
265
  "\r",
266
+ "96-E0_1-mem-ctx-8k. 8%[> ] 289.92M 48.3MB/s eta 60s "
267
  ]
268
  },
269
  {
 
271
  "output_type": "stream",
272
  "text": [
273
  "\r",
274
+ "6-E0_1-mem-ctx-8k.p 9%[> ] 305.18M 50.7MB/s eta 60s "
275
  ]
276
  },
277
  {
 
279
  "output_type": "stream",
280
  "text": [
281
  "\r",
282
+ "-E0_1-mem-ctx-8k.pt 9%[> ] 320.43M 48.7MB/s eta 60s "
283
  ]
284
  },
285
  {
 
287
  "output_type": "stream",
288
  "text": [
289
  "\r",
290
+ "E0_1-mem-ctx-8k.pth 10%[=> ] 335.69M 50.6MB/s eta 58s "
291
  ]
292
  },
293
  {
 
295
  "output_type": "stream",
296
  "text": [
297
  "\r",
298
+ "0_1-mem-ctx-8k.pth 10%[=> ] 342.92M 51.9MB/s eta 58s "
299
  ]
300
  },
301
  {
 
303
  "output_type": "stream",
304
  "text": [
305
  "\r",
306
+ "_1-mem-ctx-8k.pth 10%[=> ] 349.13M 48.2MB/s eta 58s "
307
  ]
308
  },
309
  {
 
311
  "output_type": "stream",
312
  "text": [
313
  "\r",
314
+ "1-mem-ctx-8k.pth 10%[=> ] 355.14M 49.1MB/s eta 58s "
315
  ]
316
  },
317
  {
 
319
  "output_type": "stream",
320
  "text": [
321
  "\r",
322
+ "-mem-ctx-8k.pth 11%[=> ] 366.20M 47.4MB/s eta 60s "
323
  ]
324
  },
325
  {
 
327
  "output_type": "stream",
328
  "text": [
329
  "\r",
330
+ "mem-ctx-8k.pth 11%[=> ] 381.33M 48.0MB/s eta 60s "
331
  ]
332
  },
333
  {
 
335
  "output_type": "stream",
336
  "text": [
337
  "\r",
338
+ "em-ctx-8k.pth 11%[=> ] 385.65M 45.6MB/s eta 60s "
339
  ]
340
  },
341
  {
 
343
  "output_type": "stream",
344
  "text": [
345
  "\r",
346
+ "m-ctx-8k.pth 12%[=> ] 396.73M 44.6MB/s eta 60s "
347
  ]
348
  },
349
  {
 
351
  "output_type": "stream",
352
  "text": [
353
  "\r",
354
+ "-ctx-8k.pth 12%[=> ] 411.99M 44.4MB/s eta 61s "
355
  ]
356
  },
357
  {
 
359
  "output_type": "stream",
360
  "text": [
361
  "\r",
362
+ "ctx-8k.pth 13%[=> ] 426.75M 43.9MB/s eta 61s "
363
  ]
364
  },
365
  {
 
367
  "output_type": "stream",
368
  "text": [
369
  "\r",
370
+ "tx-8k.pth 13%[=> ] 441.98M 44.4MB/s eta 61s "
371
  ]
372
  },
373
  {
 
375
  "output_type": "stream",
376
  "text": [
377
  "\r",
378
+ "x-8k.pth 13%[=> ] 457.24M 44.2MB/s eta 61s "
379
  ]
380
  },
381
  {
 
383
  "output_type": "stream",
384
  "text": [
385
  "\r",
386
+ "-8k.pth 14%[=> ] 471.24M 43.6MB/s eta 58s "
387
  ]
388
  },
389
  {
 
391
  "output_type": "stream",
392
  "text": [
393
  "\r",
394
+ "8k.pth 14%[=> ] 473.02M 40.1MB/s eta 58s "
395
  ]
396
  },
397
  {
 
399
  "output_type": "stream",
400
  "text": [
401
  "\r",
402
+ "k.pth 14%[=> ] 483.37M 41.3MB/s eta 58s "
403
  ]
404
  },
405
  {
 
407
  "output_type": "stream",
408
  "text": [
409
  "\r",
410
+ ".pth 14%[=> ] 488.28M 38.6MB/s eta 58s "
411
  ]
412
  },
413
  {
 
415
  "output_type": "stream",
416
  "text": [
417
  "\r",
418
+ "pth 15%[==> ] 503.54M 40.8MB/s eta 59s "
419
  ]
420
  },
421
  {
 
423
  "output_type": "stream",
424
  "text": [
425
  "\r",
426
+ "th 15%[==> ] 518.29M 43.3MB/s eta 59s "
427
  ]
428
  },
429
  {
 
431
  "output_type": "stream",
432
  "text": [
433
  "\r",
434
+ "h 16%[==> ] 525.85M 42.2MB/s eta 59s "
435
  ]
436
  },
437
  {
 
439
  "output_type": "stream",
440
  "text": [
441
  "\r",
442
+ " 16%[==> ] 534.05M 39.9MB/s eta 59s "
443
  ]
444
  },
445
  {
 
447
  "output_type": "stream",
448
  "text": [
449
  "\r",
450
+ " v 16%[==> ] 548.80M 42.1MB/s eta 59s "
451
  ]
452
  },
453
  {
 
455
  "output_type": "stream",
456
  "text": [
457
  "\r",
458
+ " v5 17%[==> ] 562.75M 43.4MB/s eta 58s "
459
  ]
460
  },
461
  {
 
463
  "output_type": "stream",
464
  "text": [
465
  "\r",
466
+ " v5- 17%[==> ] 565.79M 42.8MB/s eta 58s "
467
  ]
468
  },
469
  {
 
471
  "output_type": "stream",
472
  "text": [
473
  "\r",
474
+ " v5-h 17%[==> ] 585.78M 43.6MB/s eta 58s "
475
  ]
476
  },
477
  {
 
479
  "output_type": "stream",
480
  "text": [
481
  "\r",
482
+ " v5-hs 18%[==> ] 595.09M 42.6MB/s eta 58s "
483
  ]
484
  },
485
  {
 
487
  "output_type": "stream",
488
  "text": [
489
  "\r",
490
+ " v5-hs2 18%[==> ] 608.53M 44.5MB/s eta 58s "
491
  ]
492
  },
493
  {
 
495
  "output_type": "stream",
496
  "text": [
497
  "\r",
498
+ " v5-hs2x 18%[==> ] 612.97M 41.8MB/s eta 58s "
499
  ]
500
  },
501
  {
 
503
  "output_type": "stream",
504
  "text": [
505
  "\r",
506
+ " v5-hs2x- 19%[==> ] 625.09M 42.9MB/s eta 58s "
507
  ]
508
  },
509
  {
 
511
  "output_type": "stream",
512
  "text": [
513
  "\r",
514
+ " v5-hs2x-L 19%[==> ] 639.04M 43.7MB/s eta 58s "
515
  ]
516
  },
517
  {
 
519
  "output_type": "stream",
520
  "text": [
521
  "\r",
522
+ " v5-hs2x-L6 19%[==> ] 649.30M 42.2MB/s eta 58s "
523
  ]
524
  },
525
  {
 
527
  "output_type": "stream",
528
  "text": [
529
  "\r",
530
+ " v5-hs2x-L6- 19%[==> ] 656.13M 43.0MB/s eta 57s "
531
  ]
532
  },
533
  {
 
535
  "output_type": "stream",
536
  "text": [
537
  "\r",
538
+ " v5-hs2x-L6-D 20%[===> ] 671.38M 45.0MB/s eta 57s "
539
  ]
540
  },
541
  {
 
543
  "output_type": "stream",
544
  "text": [
545
  "\r",
546
+ " v5-hs2x-L6-D4 20%[===> ] 684.82M 44.3MB/s eta 57s "
547
  ]
548
  },
549
  {
 
551
  "output_type": "stream",
552
  "text": [
553
  "\r",
554
+ " v5-hs2x-L6-D40 20%[===> ] 686.64M 41.8MB/s eta 57s "
555
  ]
556
  },
557
  {
 
559
  "output_type": "stream",
560
  "text": [
561
  "\r",
562
+ " v5-hs2x-L6-D409 21%[===> ] 701.39M 43.9MB/s eta 57s "
563
  ]
564
  },
565
  {
 
567
  "output_type": "stream",
568
  "text": [
569
  "\r",
570
+ " v5-hs2x-L6-D4096 21%[===> ] 714.11M 46.5MB/s eta 55s "
571
  ]
572
  },
573
  {
 
575
  "output_type": "stream",
576
  "text": [
577
  "\r",
578
+ " v5-hs2x-L6-D4096- 21%[===> ] 717.16M 44.4MB/s eta 55s "
579
  ]
580
  },
581
  {
 
583
  "output_type": "stream",
584
  "text": [
585
  "\r",
586
+ " v5-hs2x-L6-D4096-E 22%[===> ] 732.42M 42.9MB/s eta 55s "
587
  ]
588
  },
589
  {
 
591
  "output_type": "stream",
592
  "text": [
593
  "\r",
594
+ "v5-hs2x-L6-D4096-E0 22%[===> ] 747.69M 44.7MB/s eta 55s "
595
  ]
596
  },
597
  {
 
599
  "output_type": "stream",
600
  "text": [
601
  "\r",
602
+ "5-hs2x-L6-D4096-E0_ 23%[===> ] 762.94M 46.2MB/s eta 54s "
603
  ]
604
  },
605
  {
 
607
  "output_type": "stream",
608
  "text": [
609
  "\r",
610
+ "-hs2x-L6-D4096-E0_1 23%[===> ] 778.20M 45.7MB/s eta 54s "
611
  ]
612
  },
613
  {
 
615
  "output_type": "stream",
616
  "text": [
617
  "\r",
618
+ "hs2x-L6-D4096-E0_1- 24%[===> ] 793.46M 48.7MB/s eta 54s "
619
  ]
620
  },
621
  {
 
623
  "output_type": "stream",
624
  "text": [
625
  "\r",
626
+ "s2x-L6-D4096-E0_1-m 24%[===> ] 808.71M 49.6MB/s eta 54s "
627
  ]
628
  },
629
  {
 
631
  "output_type": "stream",
632
  "text": [
633
  "\r",
634
+ "2x-L6-D4096-E0_1-me 25%[====> ] 823.46M 52.4MB/s eta 54s "
635
  ]
636
  },
637
  {
 
639
  "output_type": "stream",
640
  "text": [
641
  "\r",
642
+ "x-L6-D4096-E0_1-mem 25%[====> ] 824.09M 49.9MB/s eta 52s "
643
  ]
644
  },
645
  {
 
647
  "output_type": "stream",
648
  "text": [
649
  "\r",
650
+ "-L6-D4096-E0_1-mem- 25%[====> ] 839.23M 51.2MB/s eta 52s "
651
  ]
652
  },
653
  {
 
655
  "output_type": "stream",
656
  "text": [
657
  "\r",
658
+ "L6-D4096-E0_1-mem-c 26%[====> ] 854.49M 51.8MB/s eta 52s "
659
  ]
660
  },
661
  {
 
663
  "output_type": "stream",
664
  "text": [
665
  "\r",
666
+ "6-D4096-E0_1-mem-ct 26%[====> ] 869.75M 49.8MB/s eta 52s "
667
  ]
668
  },
669
  {
 
671
  "output_type": "stream",
672
  "text": [
673
  "\r",
674
+ "-D4096-E0_1-mem-ctx 26%[====> ] 885.01M 50.8MB/s eta 51s "
675
  ]
676
  },
677
  {
 
679
  "output_type": "stream",
680
  "text": [
681
  "\r",
682
+ "D4096-E0_1-mem-ctx- 27%[====> ] 900.27M 54.3MB/s eta 51s "
683
  ]
684
  },
685
  {
 
687
  "output_type": "stream",
688
  "text": [
689
  "\r",
690
+ "4096-E0_1-mem-ctx-8 27%[====> ] 916.90M 54.9MB/s eta 51s "
691
  ]
692
  },
693
  {
 
695
  "output_type": "stream",
696
  "text": [
697
  "\r",
698
+ "096-E0_1-mem-ctx-8k 28%[====> ] 930.27M 57.2MB/s eta 51s "
699
  ]
700
  },
701
  {
 
703
  "output_type": "stream",
704
  "text": [
705
  "\r",
706
+ "96-E0_1-mem-ctx-8k. 28%[====> ] 944.48M 58.2MB/s eta 51s "
707
  ]
708
  },
709
  {
 
711
  "output_type": "stream",
712
  "text": [
713
  "\r",
714
+ "6-E0_1-mem-ctx-8k.p 28%[====> ] 946.04M 54.0MB/s eta 49s "
715
  ]
716
  },
717
  {
 
719
  "output_type": "stream",
720
  "text": [
721
  "\r",
722
+ "-E0_1-mem-ctx-8k.pt 29%[====> ] 966.02M 58.1MB/s eta 49s "
723
  ]
724
  },
725
  {
 
727
  "output_type": "stream",
728
  "text": [
729
  "\r",
730
+ "E0_1-mem-ctx-8k.pth 29%[====> ] 976.55M 55.6MB/s eta 49s "
731
  ]
732
  },
733
  {
 
735
  "output_type": "stream",
736
  "text": [
737
  "\r",
738
+ "0_1-mem-ctx-8k.pth 30%[=====> ] 991.82M 56.5MB/s eta 49s "
739
  ]
740
  },
741
  {
 
743
  "output_type": "stream",
744
  "text": [
745
  "\r",
746
+ "_1-mem-ctx-8k.pth 30%[=====> ] 1007M 56.6MB/s eta 49s "
747
  ]
748
  },
749
  {
 
751
  "output_type": "stream",
752
  "text": [
753
  "\r",
754
+ "1-mem-ctx-8k.pth 31%[=====> ] 1022M 55.5MB/s eta 47s "
755
  ]
756
  },
757
  {
 
759
  "output_type": "stream",
760
  "text": [
761
  "\r",
762
+ "-mem-ctx-8k.pth 31%[=====> ] 1.01G 53.7MB/s eta 47s "
763
  ]
764
  },
765
  {
 
767
  "output_type": "stream",
768
  "text": [
769
  "\r",
770
+ "mem-ctx-8k.pth 31%[=====> ] 1.02G 55.1MB/s eta 47s "
771
  ]
772
  },
773
  {
 
775
  "output_type": "stream",
776
  "text": [
777
  "\r",
778
+ "em-ctx-8k.pth 32%[=====> ] 1.03G 51.6MB/s eta 47s "
779
  ]
780
  },
781
  {
 
783
  "output_type": "stream",
784
  "text": [
785
  "\r",
786
+ "m-ctx-8k.pth 32%[=====> ] 1.03G 48.0MB/s eta 46s "
787
  ]
788
  },
789
  {
 
791
  "output_type": "stream",
792
  "text": [
793
  "\r",
794
+ "-ctx-8k.pth 32%[=====> ] 1.04G 48.4MB/s eta 46s "
795
  ]
796
  },
797
  {
 
799
  "output_type": "stream",
800
  "text": [
801
  "\r",
802
+ "ctx-8k.pth 33%[=====> ] 1.06G 50.5MB/s eta 46s "
803
  ]
804
  },
805
  {
 
807
  "output_type": "stream",
808
  "text": [
809
  "\r",
810
+ "tx-8k.pth 33%[=====> ] 1.07G 47.7MB/s eta 46s "
811
  ]
812
  },
813
  {
 
815
  "output_type": "stream",
816
  "text": [
817
  "\r",
818
+ "x-8k.pth 33%[=====> ] 1.09G 47.3MB/s eta 45s "
819
  ]
820
  },
821
  {
 
823
  "output_type": "stream",
824
  "text": [
825
  "\r",
826
+ "-8k.pth 34%[=====> ] 1.09G 46.7MB/s eta 45s "
827
  ]
828
  },
829
  {
 
831
  "output_type": "stream",
832
  "text": [
833
  "\r",
834
+ "8k.pth 34%[=====> ] 1.10G 47.1MB/s eta 45s "
835
  ]
836
  },
837
  {
 
839
  "output_type": "stream",
840
  "text": [
841
  "\r",
842
+ "k.pth 34%[=====> ] 1.10G 42.8MB/s eta 45s "
843
  ]
844
  },
845
  {
 
847
  "output_type": "stream",
848
  "text": [
849
  "\r",
850
+ ".pth 34%[=====> ] 1.12G 41.5MB/s eta 45s "
851
  ]
852
  },
853
  {
 
855
  "output_type": "stream",
856
  "text": [
857
  "\r",
858
+ "pth 35%[======> ] 1.13G 43.4MB/s eta 45s "
859
  ]
860
  },
861
  {
 
863
  "output_type": "stream",
864
  "text": [
865
  "\r",
866
+ "th 35%[======> ] 1.13G 40.2MB/s eta 45s "
867
  ]
868
  },
869
  {
 
871
  "output_type": "stream",
872
  "text": [
873
  "\r",
874
+ "h 35%[======> ] 1.15G 40.3MB/s eta 45s "
875
  ]
876
  },
877
  {
 
879
  "output_type": "stream",
880
  "text": [
881
  "\r",
882
+ " 36%[======> ] 1.16G 39.9MB/s eta 45s "
883
  ]
884
  },
885
  {
 
887
  "output_type": "stream",
888
  "text": [
889
  "\r",
890
+ " v 36%[======> ] 1.17G 42.0MB/s eta 45s "
891
  ]
892
  },
893
  {
 
895
  "output_type": "stream",
896
  "text": [
897
  "\r",
898
+ " v5 36%[======> ] 1.18G 39.6MB/s eta 44s "
899
  ]
900
  },
901
  {
 
903
  "output_type": "stream",
904
  "text": [
905
  "\r",
906
+ " v5- 37%[======> ] 1.19G 39.2MB/s eta 44s "
907
  ]
908
  },
909
  {
 
911
  "output_type": "stream",
912
  "text": [
913
  "\r",
914
+ " v5-h 37%[======> ] 1.21G 43.1MB/s eta 44s "
915
  ]
916
  },
917
  {
 
919
  "output_type": "stream",
920
  "text": [
921
  "\r",
922
+ " v5-hs 38%[======> ] 1.22G 45.2MB/s eta 44s "
923
  ]
924
  },
925
  {
 
927
  "output_type": "stream",
928
  "text": [
929
  "\r",
930
+ " v5-hs2 38%[======> ] 1.24G 45.3MB/s eta 44s "
931
  ]
932
  },
933
  {
 
935
  "output_type": "stream",
936
  "text": [
937
  "\r",
938
+ " v5-hs2x 38%[======> ] 1.24G 47.0MB/s eta 42s "
939
  ]
940
  },
941
  {
 
943
  "output_type": "stream",
944
  "text": [
945
  "\r",
946
+ " v5-hs2x- 39%[======> ] 1.25G 45.6MB/s eta 42s "
947
  ]
948
  },
949
  {
 
951
  "output_type": "stream",
952
  "text": [
953
  "\r",
954
+ " v5-hs2x-L 39%[======> ] 1.27G 45.3MB/s eta 42s "
955
  ]
956
  },
957
  {
 
959
  "output_type": "stream",
960
  "text": [
961
  "\r",
962
+ " v5-hs2x-L6 39%[======> ] 1.28G 45.0MB/s eta 42s "
963
  ]
964
  },
965
  {
 
967
  "output_type": "stream",
968
  "text": [
969
  "\r",
970
+ " v5-hs2x-L6- 40%[=======> ] 1.29G 46.3MB/s eta 41s "
971
  ]
972
  },
973
  {
 
975
  "output_type": "stream",
976
  "text": [
977
  "\r",
978
+ " v5-hs2x-L6-D 40%[=======> ] 1.31G 49.1MB/s eta 41s "
979
  ]
980
  },
981
  {
 
983
  "output_type": "stream",
984
  "text": [
985
  "\r",
986
+ " v5-hs2x-L6-D4 40%[=======> ] 1.31G 46.1MB/s eta 41s "
987
  ]
988
  },
989
  {
 
991
  "output_type": "stream",
992
  "text": [
993
  "\r",
994
+ " v5-hs2x-L6-D40 41%[=======> ] 1.33G 46.7MB/s eta 41s "
995
  ]
996
  },
997
  {
 
999
  "output_type": "stream",
1000
  "text": [
1001
  "\r",
1002
+ " v5-hs2x-L6-D409 41%[=======> ] 1.33G 46.8MB/s eta 41s "
1003
  ]
1004
  },
1005
  {
 
1007
  "output_type": "stream",
1008
  "text": [
1009
  "\r",
1010
+ " v5-hs2x-L6-D4096 41%[=======> ] 1.34G 46.3MB/s eta 41s "
1011
  ]
1012
  },
1013
  {
 
1015
  "output_type": "stream",
1016
  "text": [
1017
  "\r",
1018
+ " v5-hs2x-L6-D4096- 42%[=======> ] 1.36G 48.2MB/s eta 41s "
1019
  ]
1020
  },
1021
  {
 
1023
  "output_type": "stream",
1024
  "text": [
1025
  "\r",
1026
+ " v5-hs2x-L6-D4096-E 42%[=======> ] 1.36G 45.5MB/s eta 41s "
1027
  ]
1028
  },
1029
  {
 
1031
  "output_type": "stream",
1032
  "text": [
1033
  "\r",
1034
+ "v5-hs2x-L6-D4096-E0 42%[=======> ] 1.37G 45.7MB/s eta 41s "
1035
  ]
1036
  },
1037
  {
 
1039
  "output_type": "stream",
1040
  "text": [
1041
  "\r",
1042
+ "5-hs2x-L6-D4096-E0_ 43%[=======> ] 1.39G 46.5MB/s eta 41s "
1043
  ]
1044
  },
1045
  {
 
1047
  "output_type": "stream",
1048
  "text": [
1049
  "\r",
1050
+ "-hs2x-L6-D4096-E0_1 43%[=======> ] 1.40G 46.8MB/s eta 39s "
1051
  ]
1052
  },
1053
  {
 
1055
  "output_type": "stream",
1056
  "text": [
1057
  "\r",
1058
+ "hs2x-L6-D4096-E0_1- 44%[=======> ] 1.42G 44.8MB/s eta 39s "
1059
  ]
1060
  },
1061
  {
 
1063
  "output_type": "stream",
1064
  "text": [
1065
  "\r",
1066
+ "s2x-L6-D4096-E0_1-m 44%[=======> ] 1.43G 43.8MB/s eta 39s "
1067
  ]
1068
  },
1069
  {
 
1071
  "output_type": "stream",
1072
  "text": [
1073
  "\r",
1074
+ "2x-L6-D4096-E0_1-me 44%[=======> ] 1.43G 43.7MB/s eta 39s "
1075
  ]
1076
  },
1077
  {
 
1079
  "output_type": "stream",
1080
  "text": [
1081
  "\r",
1082
+ "x-L6-D4096-E0_1-mem 45%[========> ] 1.45G 43.1MB/s eta 39s "
1083
  ]
1084
  },
1085
  {
 
1087
  "output_type": "stream",
1088
  "text": [
1089
  "\r",
1090
+ "-L6-D4096-E0_1-mem- 45%[========> ] 1.46G 43.9MB/s eta 39s "
1091
  ]
1092
  },
1093
  {
 
1095
  "output_type": "stream",
1096
  "text": [
1097
  "\r",
1098
+ "L6-D4096-E0_1-mem-c 46%[========> ] 1.47G 43.8MB/s eta 39s "
1099
  ]
1100
  },
1101
  {
 
1103
  "output_type": "stream",
1104
  "text": [
1105
  "\r",
1106
+ "6-D4096-E0_1-mem-ct 46%[========> ] 1.48G 42.6MB/s eta 38s "
1107
  ]
1108
  },
1109
  {
 
1111
  "output_type": "stream",
1112
  "text": [
1113
  "\r",
1114
+ "-D4096-E0_1-mem-ctx 46%[========> ] 1.50G 47.1MB/s eta 38s "
1115
  ]
1116
  },
1117
  {
 
1119
  "output_type": "stream",
1120
  "text": [
1121
  "\r",
1122
+ "D4096-E0_1-mem-ctx- 46%[========> ] 1.50G 45.2MB/s eta 38s "
1123
  ]
1124
  },
1125
  {
 
1127
  "output_type": "stream",
1128
  "text": [
1129
  "\r",
1130
+ "4096-E0_1-mem-ctx-8 47%[========> ] 1.52G 46.9MB/s eta 38s "
1131
  ]
1132
  },
1133
  {
 
1135
  "output_type": "stream",
1136
  "text": [
1137
  "\r",
1138
+ "096-E0_1-mem-ctx-8k 47%[========> ] 1.53G 47.9MB/s eta 38s "
1139
  ]
1140
  },
1141
  {
 
1143
  "output_type": "stream",
1144
  "text": [
1145
  "\r",
1146
+ "96-E0_1-mem-ctx-8k. 47%[========> ] 1.54G 46.4MB/s eta 36s "
1147
  ]
1148
  },
1149
  {
 
1151
  "output_type": "stream",
1152
  "text": [
1153
  "\r",
1154
+ "6-E0_1-mem-ctx-8k.p 48%[========> ] 1.55G 48.6MB/s eta 36s "
1155
  ]
1156
  },
1157
  {
 
1159
  "output_type": "stream",
1160
  "text": [
1161
  "\r",
1162
+ "-E0_1-mem-ctx-8k.pt 48%[========> ] 1.56G 47.8MB/s eta 36s "
1163
  ]
1164
  },
1165
  {
 
1167
  "output_type": "stream",
1168
  "text": [
1169
  "\r",
1170
+ "E0_1-mem-ctx-8k.pth 49%[========> ] 1.58G 48.8MB/s eta 36s "
1171
  ]
1172
  },
1173
  {
 
1175
  "output_type": "stream",
1176
  "text": [
1177
  "\r",
1178
+ "0_1-mem-ctx-8k.pth 49%[========> ] 1.58G 46.7MB/s eta 36s "
1179
  ]
1180
  },
1181
  {
 
1183
  "output_type": "stream",
1184
  "text": [
1185
  "\r",
1186
+ "_1-mem-ctx-8k.pth 49%[========> ] 1.59G 45.9MB/s eta 35s "
1187
  ]
1188
  },
1189
  {
 
1191
  "output_type": "stream",
1192
  "text": [
1193
  "\r",
1194
+ "1-mem-ctx-8k.pth 50%[=========> ] 1.61G 48.2MB/s eta 35s "
1195
  ]
1196
  },
1197
  {
 
1199
  "output_type": "stream",
1200
  "text": [
1201
  "\r",
1202
+ "-mem-ctx-8k.pth 50%[=========> ] 1.62G 51.1MB/s eta 35s "
1203
  ]
1204
  },
1205
  {
 
1207
  "output_type": "stream",
1208
  "text": [
1209
  "\r",
1210
+ "mem-ctx-8k.pth 51%[=========> ] 1.64G 51.1MB/s eta 35s "
1211
  ]
1212
  },
1213
  {
 
1215
  "output_type": "stream",
1216
  "text": [
1217
  "\r",
1218
+ "em-ctx-8k.pth 51%[=========> ] 1.65G 52.4MB/s eta 34s "
1219
  ]
1220
  },
1221
  {
 
1223
  "output_type": "stream",
1224
  "text": [
1225
  "\r",
1226
+ "m-ctx-8k.pth 52%[=========> ] 1.67G 52.4MB/s eta 34s "
1227
  ]
1228
  },
1229
  {
 
1231
  "output_type": "stream",
1232
  "text": [
1233
  "\r",
1234
+ "-ctx-8k.pth 52%[=========> ] 1.68G 53.5MB/s eta 34s "
1235
  ]
1236
  },
1237
  {
 
1239
  "output_type": "stream",
1240
  "text": [
1241
  "\r",
1242
+ "ctx-8k.pth 52%[=========> ] 1.68G 48.1MB/s eta 34s "
1243
  ]
1244
  },
1245
  {
 
1247
  "output_type": "stream",
1248
  "text": [
1249
  "\r",
1250
+ "tx-8k.pth 52%[=========> ] 1.70G 48.0MB/s eta 33s "
1251
  ]
1252
  },
1253
  {
 
1255
  "output_type": "stream",
1256
  "text": [
1257
  "\r",
1258
+ "x-8k.pth 53%[=========> ] 1.71G 47.1MB/s eta 33s "
1259
  ]
1260
  },
1261
  {
 
1263
  "output_type": "stream",
1264
  "text": [
1265
  "\r",
1266
+ "-8k.pth 53%[=========> ] 1.72G 45.9MB/s eta 33s "
1267
  ]
1268
  },
1269
  {
 
1271
  "output_type": "stream",
1272
  "text": [
1273
  "\r",
1274
+ "8k.pth 53%[=========> ] 1.73G 43.9MB/s eta 33s "
1275
  ]
1276
  },
1277
  {
 
1279
  "output_type": "stream",
1280
  "text": [
1281
  "\r",
1282
+ "k.pth 54%[=========> ] 1.74G 43.3MB/s eta 32s "
1283
  ]
1284
  },
1285
  {
 
1287
  "output_type": "stream",
1288
  "text": [
1289
  "\r",
1290
+ ".pth 54%[=========> ] 1.76G 42.0MB/s eta 32s "
1291
  ]
1292
  },
1293
  {
 
1295
  "output_type": "stream",
1296
  "text": [
1297
  "\r",
1298
+ "pth 55%[==========> ] 1.78G 45.6MB/s eta 32s "
1299
  ]
1300
  },
1301
  {
 
1303
  "output_type": "stream",
1304
  "text": [
1305
  "\r",
1306
+ "th 55%[==========> ] 1.79G 46.7MB/s eta 32s "
1307
  ]
1308
  },
1309
  {
 
1311
  "output_type": "stream",
1312
  "text": [
1313
  "\r",
1314
+ "h 56%[==========> ] 1.80G 45.8MB/s eta 30s "
1315
  ]
1316
  },
1317
  {
 
1319
  "output_type": "stream",
1320
  "text": [
1321
  "\r",
1322
+ " 56%[==========> ] 1.82G 47.8MB/s eta 30s "
1323
  ]
1324
  },
1325
  {
 
1327
  "output_type": "stream",
1328
  "text": [
1329
  "\r",
1330
+ " v 57%[==========> ] 1.83G 45.9MB/s eta 30s "
1331
  ]
1332
  },
1333
  {
 
1335
  "output_type": "stream",
1336
  "text": [
1337
  "\r",
1338
+ " v5 57%[==========> ] 1.85G 48.4MB/s eta 30s "
1339
  ]
1340
  },
1341
  {
 
1343
  "output_type": "stream",
1344
  "text": [
1345
  "\r",
1346
+ " v5- 58%[==========> ] 1.86G 48.7MB/s eta 29s "
1347
  ]
1348
  },
1349
  {
 
1351
  "output_type": "stream",
1352
  "text": [
1353
  "\r",
1354
+ " v5-h 58%[==========> ] 1.88G 47.6MB/s eta 29s "
1355
  ]
1356
  },
1357
  {
 
1359
  "output_type": "stream",
1360
  "text": [
1361
  "\r",
1362
+ " v5-hs 58%[==========> ] 1.89G 47.8MB/s eta 29s "
1363
  ]
1364
  },
1365
  {
 
1367
  "output_type": "stream",
1368
  "text": [
1369
  "\r",
1370
+ " v5-hs2 59%[==========> ] 1.91G 48.8MB/s eta 28s "
1371
  ]
1372
  },
1373
  {
 
1375
  "output_type": "stream",
1376
  "text": [
1377
  "\r",
1378
+ " v5-hs2x 59%[==========> ] 1.92G 50.3MB/s eta 28s "
1379
  ]
1380
  },
1381
  {
 
1383
  "output_type": "stream",
1384
  "text": [
1385
  "\r",
1386
+ " v5-hs2x- 60%[===========> ] 1.94G 51.6MB/s eta 28s "
1387
  ]
1388
  },
1389
  {
 
1391
  "output_type": "stream",
1392
  "text": [
1393
  "\r",
1394
+ " v5-hs2x-L 60%[===========> ] 1.94G 49.7MB/s eta 28s "
1395
  ]
1396
  },
1397
  {
 
1399
  "output_type": "stream",
1400
  "text": [
1401
  "\r",
1402
+ " v5-hs2x-L6 60%[===========> ] 1.95G 50.3MB/s eta 27s "
1403
  ]
1404
  },
1405
  {
 
1407
  "output_type": "stream",
1408
  "text": [
1409
  "\r",
1410
+ " v5-hs2x-L6- 61%[===========> ] 1.97G 53.8MB/s eta 27s "
1411
  ]
1412
  },
1413
  {
 
1415
  "output_type": "stream",
1416
  "text": [
1417
  "\r",
1418
+ " v5-hs2x-L6-D 61%[===========> ] 1.98G 52.6MB/s eta 27s "
1419
  ]
1420
  },
1421
  {
 
1423
  "output_type": "stream",
1424
  "text": [
1425
  "\r",
1426
+ " v5-hs2x-L6-D4 62%[===========> ] 2.00G 52.5MB/s eta 27s "
1427
  ]
1428
  },
1429
  {
 
1431
  "output_type": "stream",
1432
  "text": [
1433
  "\r",
1434
+ " v5-hs2x-L6-D40 62%[===========> ] 2.01G 52.3MB/s eta 26s "
1435
  ]
1436
  },
1437
  {
 
1439
  "output_type": "stream",
1440
  "text": [
1441
  "\r",
1442
+ " v5-hs2x-L6-D409 63%[===========> ] 2.02G 52.2MB/s eta 26s "
1443
  ]
1444
  },
1445
  {
 
1447
  "output_type": "stream",
1448
  "text": [
1449
  "\r",
1450
+ " v5-hs2x-L6-D4096 63%[===========> ] 2.04G 55.6MB/s eta 26s "
1451
  ]
1452
  },
1453
  {
 
1455
  "output_type": "stream",
1456
  "text": [
1457
  "\r",
1458
+ " v5-hs2x-L6-D4096- 63%[===========> ] 2.04G 52.0MB/s eta 26s "
1459
  ]
1460
  },
1461
  {
 
1463
  "output_type": "stream",
1464
  "text": [
1465
  "\r",
1466
+ " v5-hs2x-L6-D4096-E 64%[===========> ] 2.06G 51.6MB/s eta 26s "
1467
  ]
1468
  },
1469
  {
 
1471
  "output_type": "stream",
1472
  "text": [
1473
  "\r",
1474
+ "v5-hs2x-L6-D4096-E0 64%[===========> ] 2.07G 51.4MB/s eta 24s "
1475
  ]
1476
  },
1477
  {
 
1479
  "output_type": "stream",
1480
  "text": [
1481
  "\r",
1482
+ "5-hs2x-L6-D4096-E0_ 65%[============> ] 2.09G 52.5MB/s eta 24s "
1483
  ]
1484
  },
1485
  {
 
1487
  "output_type": "stream",
1488
  "text": [
1489
  "\r",
1490
+ "-hs2x-L6-D4096-E0_1 65%[============> ] 2.10G 51.7MB/s eta 24s "
1491
  ]
1492
  },
1493
  {
 
1495
  "output_type": "stream",
1496
  "text": [
1497
  "\r",
1498
+ "hs2x-L6-D4096-E0_1- 65%[============> ] 2.11G 50.5MB/s eta 24s "
1499
  ]
1500
  },
1501
  {
 
1503
  "output_type": "stream",
1504
  "text": [
1505
  "\r",
1506
+ "s2x-L6-D4096-E0_1-m 66%[============> ] 2.12G 51.4MB/s eta 23s "
1507
  ]
1508
  },
1509
  {
 
1511
  "output_type": "stream",
1512
  "text": [
1513
  "\r",
1514
+ "2x-L6-D4096-E0_1-me 66%[============> ] 2.13G 52.5MB/s eta 23s "
1515
  ]
1516
  },
1517
  {
 
1519
  "output_type": "stream",
1520
  "text": [
1521
  "\r",
1522
+ "x-L6-D4096-E0_1-mem 66%[============> ] 2.14G 54.2MB/s eta 23s "
1523
  ]
1524
  },
1525
  {
 
1527
  "output_type": "stream",
1528
  "text": [
1529
  "\r",
1530
+ "-L6-D4096-E0_1-mem- 67%[============> ] 2.16G 53.2MB/s eta 23s "
1531
  ]
1532
  },
1533
  {
 
1535
  "output_type": "stream",
1536
  "text": [
1537
  "\r",
1538
+ "L6-D4096-E0_1-mem-c 67%[============> ] 2.16G 49.3MB/s eta 23s "
1539
  ]
1540
  },
1541
  {
 
1543
  "output_type": "stream",
1544
  "text": [
1545
  "\r",
1546
+ "6-D4096-E0_1-mem-ct 67%[============> ] 2.17G 46.2MB/s eta 22s "
1547
  ]
1548
  },
1549
  {
 
1551
  "output_type": "stream",
1552
  "text": [
1553
  "\r",
1554
+ "-D4096-E0_1-mem-ctx 68%[============> ] 2.19G 48.9MB/s eta 22s "
1555
  ]
1556
  },
1557
  {
 
1559
  "output_type": "stream",
1560
  "text": [
1561
  "\r",
1562
+ "D4096-E0_1-mem-ctx- 68%[============> ] 2.21G 48.4MB/s eta 22s "
1563
  ]
1564
  },
1565
  {
 
1567
  "output_type": "stream",
1568
  "text": [
1569
  "\r",
1570
+ "4096-E0_1-mem-ctx-8 69%[============> ] 2.23G 51.6MB/s eta 22s "
1571
  ]
1572
  },
1573
  {
 
1575
  "output_type": "stream",
1576
  "text": [
1577
  "\r",
1578
+ "096-E0_1-mem-ctx-8k 70%[=============> ] 2.25G 52.0MB/s eta 20s "
1579
  ]
1580
  },
1581
  {
 
1583
  "output_type": "stream",
1584
  "text": [
1585
  "\r",
1586
+ "96-E0_1-mem-ctx-8k. 70%[=============> ] 2.26G 50.6MB/s eta 20s "
1587
  ]
1588
  },
1589
  {
 
1591
  "output_type": "stream",
1592
  "text": [
1593
  "\r",
1594
+ "6-E0_1-mem-ctx-8k.p 70%[=============> ] 2.27G 49.6MB/s eta 20s "
1595
  ]
1596
  },
1597
  {
 
1599
  "output_type": "stream",
1600
  "text": [
1601
  "\r",
1602
+ "-E0_1-mem-ctx-8k.pt 71%[=============> ] 2.28G 49.1MB/s eta 20s "
1603
  ]
1604
  },
1605
  {
 
1607
  "output_type": "stream",
1608
  "text": [
1609
  "\r",
1610
+ "E0_1-mem-ctx-8k.pth 71%[=============> ] 2.29G 52.6MB/s eta 19s "
1611
  ]
1612
  },
1613
  {
 
1615
  "output_type": "stream",
1616
  "text": [
1617
  "\r",
1618
+ "0_1-mem-ctx-8k.pth 72%[=============> ] 2.31G 49.9MB/s eta 19s "
1619
  ]
1620
  },
1621
  {
 
1623
  "output_type": "stream",
1624
  "text": [
1625
  "\r",
1626
+ "_1-mem-ctx-8k.pth 72%[=============> ] 2.32G 50.8MB/s eta 19s "
1627
  ]
1628
  },
1629
  {
 
1631
  "output_type": "stream",
1632
  "text": [
1633
  "\r",
1634
+ "1-mem-ctx-8k.pth 72%[=============> ] 2.34G 49.4MB/s eta 19s "
1635
  ]
1636
  },
1637
  {
 
1639
  "output_type": "stream",
1640
  "text": [
1641
  "\r",
1642
+ "-mem-ctx-8k.pth 73%[=============> ] 2.35G 50.8MB/s eta 18s "
1643
  ]
1644
  },
1645
  {
 
1647
  "output_type": "stream",
1648
  "text": [
1649
  "\r",
1650
+ "mem-ctx-8k.pth 73%[=============> ] 2.37G 53.2MB/s eta 18s "
1651
  ]
1652
  },
1653
  {
 
1655
  "output_type": "stream",
1656
  "text": [
1657
  "\r",
1658
+ "em-ctx-8k.pth 74%[=============> ] 2.38G 53.6MB/s eta 18s "
1659
  ]
1660
  },
1661
  {
 
1663
  "output_type": "stream",
1664
  "text": [
1665
  "\r",
1666
+ "m-ctx-8k.pth 74%[=============> ] 2.38G 52.2MB/s eta 18s "
1667
  ]
1668
  },
1669
  {
 
1671
  "output_type": "stream",
1672
  "text": [
1673
  "\r",
1674
+ "-ctx-8k.pth 75%[==============> ] 2.41G 55.6MB/s eta 18s "
1675
  ]
1676
  },
1677
  {
 
1679
  "output_type": "stream",
1680
  "text": [
1681
  "\r",
1682
+ "ctx-8k.pth 75%[==============> ] 2.41G 52.1MB/s eta 17s "
1683
  ]
1684
  },
1685
  {
 
1687
  "output_type": "stream",
1688
  "text": [
1689
  "\r",
1690
+ "tx-8k.pth 75%[==============> ] 2.43G 51.3MB/s eta 17s "
1691
  ]
1692
  },
1693
  {
 
1695
  "output_type": "stream",
1696
  "text": [
1697
  "\r",
1698
+ "x-8k.pth 75%[==============> ] 2.43G 51.0MB/s eta 17s "
1699
  ]
1700
  },
1701
  {
 
1703
  "output_type": "stream",
1704
  "text": [
1705
  "\r",
1706
+ "-8k.pth 76%[==============> ] 2.44G 50.0MB/s eta 17s "
1707
  ]
1708
  },
1709
  {
 
1711
  "output_type": "stream",
1712
  "text": [
1713
  "\r",
1714
+ "8k.pth 76%[==============> ] 2.46G 49.3MB/s eta 16s "
1715
  ]
1716
  },
1717
  {
 
1719
  "output_type": "stream",
1720
  "text": [
1721
  "\r",
1722
+ "k.pth 77%[==============> ] 2.47G 49.6MB/s eta 16s "
1723
  ]
1724
  },
1725
  {
 
1727
  "output_type": "stream",
1728
  "text": [
1729
  "\r",
1730
+ ".pth 77%[==============> ] 2.49G 49.1MB/s eta 16s "
1731
  ]
1732
  },
1733
  {
 
1735
  "output_type": "stream",
1736
  "text": [
1737
  "\r",
1738
+ "pth 78%[==============> ] 2.50G 52.4MB/s eta 16s "
1739
  ]
1740
  },
1741
  {
 
1743
  "output_type": "stream",
1744
  "text": [
1745
  "\r",
1746
+ "th 78%[==============> ] 2.50G 52.2MB/s eta 16s "
1747
  ]
1748
  },
1749
  {
 
1751
  "output_type": "stream",
1752
  "text": [
1753
  "\r",
1754
+ "h 78%[==============> ] 2.52G 52.1MB/s eta 15s "
1755
  ]
1756
  },
1757
  {
 
1759
  "output_type": "stream",
1760
  "text": [
1761
  "\r",
1762
+ " 79%[==============> ] 2.53G 51.2MB/s eta 15s "
1763
  ]
1764
  },
1765
  {
 
1767
  "output_type": "stream",
1768
  "text": [
1769
  "\r",
1770
+ " v 79%[==============> ] 2.55G 50.3MB/s eta 15s "
1771
  ]
1772
  },
1773
  {
 
1775
  "output_type": "stream",
1776
  "text": [
1777
  "\r",
1778
+ " v5 79%[==============> ] 2.56G 51.7MB/s eta 15s "
1779
  ]
1780
  },
1781
  {
 
1783
  "output_type": "stream",
1784
  "text": [
1785
  "\r",
1786
+ " v5- 80%[===============> ] 2.58G 49.4MB/s eta 13s "
1787
  ]
1788
  },
1789
  {
 
1791
  "output_type": "stream",
1792
  "text": [
1793
  "\r",
1794
+ " v5-h 80%[===============> ] 2.59G 52.2MB/s eta 13s "
1795
  ]
1796
  },
1797
  {
 
1799
  "output_type": "stream",
1800
  "text": [
1801
  "\r",
1802
+ " v5-hs 81%[===============> ] 2.60G 48.0MB/s eta 13s "
1803
  ]
1804
  },
1805
  {
 
1807
  "output_type": "stream",
1808
  "text": [
1809
  "\r",
1810
+ " v5-hs2 81%[===============> ] 2.62G 51.0MB/s eta 13s "
1811
  ]
1812
  },
1813
  {
 
1815
  "output_type": "stream",
1816
  "text": [
1817
  "\r",
1818
+ " v5-hs2x 81%[===============> ] 2.62G 48.0MB/s eta 13s "
1819
  ]
1820
  },
1821
  {
 
1823
  "output_type": "stream",
1824
  "text": [
1825
  "\r",
1826
+ " v5-hs2x- 82%[===============> ] 2.64G 49.9MB/s eta 12s "
1827
  ]
1828
  },
1829
  {
 
1831
  "output_type": "stream",
1832
  "text": [
1833
  "\r",
1834
+ " v5-hs2x-L 82%[===============> ] 2.65G 49.9MB/s eta 12s "
1835
  ]
1836
  },
1837
  {
 
1839
  "output_type": "stream",
1840
  "text": [
1841
  "\r",
1842
+ " v5-hs2x-L6 82%[===============> ] 2.65G 49.1MB/s eta 12s "
1843
  ]
1844
  },
1845
  {
 
1847
  "output_type": "stream",
1848
  "text": [
1849
  "\r",
1850
+ " v5-hs2x-L6- 83%[===============> ] 2.67G 48.6MB/s eta 12s "
1851
  ]
1852
  },
1853
  {
 
1855
  "output_type": "stream",
1856
  "text": [
1857
  "\r",
1858
+ " v5-hs2x-L6-D 84%[===============> ] 2.70G 51.6MB/s eta 11s "
1859
  ]
1860
  },
1861
  {
 
1863
  "output_type": "stream",
1864
  "text": [
1865
  "\r",
1866
+ " v5-hs2x-L6-D4 84%[===============> ] 2.71G 49.3MB/s eta 11s "
1867
  ]
1868
  },
1869
  {
 
1871
  "output_type": "stream",
1872
  "text": [
1873
  "\r",
1874
+ " v5-hs2x-L6-D40 84%[===============> ] 2.72G 50.9MB/s eta 11s "
1875
  ]
1876
  },
1877
  {
 
1879
  "output_type": "stream",
1880
  "text": [
1881
  "\r",
1882
+ " v5-hs2x-L6-D409 85%[================> ] 2.73G 49.4MB/s eta 11s "
1883
  ]
1884
  },
1885
  {
 
1887
  "output_type": "stream",
1888
  "text": [
1889
  "\r",
1890
+ " v5-hs2x-L6-D4096 85%[================> ] 2.75G 53.4MB/s eta 9s "
1891
  ]
1892
  },
1893
  {
 
1895
  "output_type": "stream",
1896
  "text": [
1897
  "\r",
1898
+ " v5-hs2x-L6-D4096- 86%[================> ] 2.76G 50.7MB/s eta 9s "
1899
  ]
1900
  },
1901
  {
 
1903
  "output_type": "stream",
1904
  "text": [
1905
  "\r",
1906
+ " v5-hs2x-L6-D4096-E 86%[================> ] 2.77G 50.0MB/s eta 9s "
1907
  ]
1908
  },
1909
  {
 
1911
  "output_type": "stream",
1912
  "text": [
1913
  "\r",
1914
+ "v5-hs2x-L6-D4096-E0 86%[================> ] 2.78G 51.6MB/s eta 9s "
1915
  ]
1916
  },
1917
  {
 
1919
  "output_type": "stream",
1920
  "text": [
1921
  "\r",
1922
+ "5-hs2x-L6-D4096-E0_ 86%[================> ] 2.79G 49.4MB/s eta 9s "
1923
  ]
1924
  },
1925
  {
 
1927
  "output_type": "stream",
1928
  "text": [
1929
  "\r",
1930
+ "-hs2x-L6-D4096-E0_1 87%[================> ] 2.80G 48.8MB/s eta 9s "
1931
  ]
1932
  },
1933
  {
 
1935
  "output_type": "stream",
1936
  "text": [
1937
  "\r",
1938
+ "hs2x-L6-D4096-E0_1- 87%[================> ] 2.81G 48.5MB/s eta 9s "
1939
  ]
1940
  },
1941
  {
 
1943
  "output_type": "stream",
1944
  "text": [
1945
  "\r",
1946
+ "s2x-L6-D4096-E0_1-m 87%[================> ] 2.82G 47.1MB/s eta 9s "
1947
  ]
1948
  },
1949
  {
 
1951
  "output_type": "stream",
1952
  "text": [
1953
  "\r",
1954
+ "2x-L6-D4096-E0_1-me 88%[================> ] 2.82G 46.0MB/s eta 9s "
1955
  ]
1956
  },
1957
  {
 
1959
  "output_type": "stream",
1960
  "text": [
1961
  "\r",
1962
+ "x-L6-D4096-E0_1-mem 88%[================> ] 2.84G 51.0MB/s eta 8s "
1963
  ]
1964
  },
1965
  {
 
1967
  "output_type": "stream",
1968
  "text": [
1969
  "\r",
1970
+ "-L6-D4096-E0_1-mem- 89%[================> ] 2.86G 52.5MB/s eta 8s "
1971
  ]
1972
  },
1973
  {
 
1975
  "output_type": "stream",
1976
  "text": [
1977
  "\r",
1978
+ "L6-D4096-E0_1-mem-c 89%[================> ] 2.87G 49.9MB/s eta 8s "
1979
  ]
1980
  },
1981
  {
 
1983
  "output_type": "stream",
1984
  "text": [
1985
  "\r",
1986
+ "6-D4096-E0_1-mem-ct 89%[================> ] 2.88G 48.9MB/s eta 8s "
1987
  ]
1988
  },
1989
  {
 
1991
  "output_type": "stream",
1992
  "text": [
1993
  "\r",
1994
+ "-D4096-E0_1-mem-ctx 90%[=================> ] 2.89G 48.9MB/s eta 8s "
1995
  ]
1996
  },
1997
  {
 
1999
  "output_type": "stream",
2000
  "text": [
2001
  "\r",
2002
+ "D4096-E0_1-mem-ctx- 90%[=================> ] 2.90G 49.9MB/s eta 6s "
2003
  ]
2004
  },
2005
  {
 
2007
  "output_type": "stream",
2008
  "text": [
2009
  "\r",
2010
+ "4096-E0_1-mem-ctx-8 90%[=================> ] 2.91G 50.5MB/s eta 6s "
2011
  ]
2012
  },
2013
  {
 
2015
  "output_type": "stream",
2016
  "text": [
2017
  "\r",
2018
+ "096-E0_1-mem-ctx-8k 91%[=================> ] 2.92G 49.3MB/s eta 6s "
2019
  ]
2020
  },
2021
  {
 
2023
  "output_type": "stream",
2024
  "text": [
2025
  "\r",
2026
+ "96-E0_1-mem-ctx-8k. 91%[=================> ] 2.93G 48.1MB/s eta 6s "
2027
  ]
2028
  },
2029
  {
 
2031
  "output_type": "stream",
2032
  "text": [
2033
  "\r",
2034
+ "6-E0_1-mem-ctx-8k.p 91%[=================> ] 2.95G 46.8MB/s eta 5s "
2035
  ]
2036
  },
2037
  {
 
2039
  "output_type": "stream",
2040
  "text": [
2041
  "\r",
2042
+ "-E0_1-mem-ctx-8k.pt 92%[=================> ] 2.95G 46.9MB/s eta 5s "
2043
  ]
2044
  },
2045
  {
 
2047
  "output_type": "stream",
2048
  "text": [
2049
  "\r",
2050
+ "E0_1-mem-ctx-8k.pth 92%[=================> ] 2.98G 50.2MB/s eta 5s "
2051
  ]
2052
  },
2053
  {
 
2055
  "output_type": "stream",
2056
  "text": [
2057
  "\r",
2058
+ "0_1-mem-ctx-8k.pth 93%[=================> ] 2.99G 51.3MB/s eta 5s "
2059
  ]
2060
  },
2061
  {
 
2063
  "output_type": "stream",
2064
  "text": [
2065
  "\r",
2066
+ "_1-mem-ctx-8k.pth 93%[=================> ] 3.01G 52.1MB/s eta 5s "
2067
  ]
2068
  },
2069
  {
 
2071
  "output_type": "stream",
2072
  "text": [
2073
  "\r",
2074
+ "1-mem-ctx-8k.pth 94%[=================> ] 3.02G 52.2MB/s eta 4s "
2075
  ]
2076
  },
2077
  {
 
2079
  "output_type": "stream",
2080
  "text": [
2081
  "\r",
2082
+ "-mem-ctx-8k.pth 94%[=================> ] 3.04G 55.1MB/s eta 4s "
2083
  ]
2084
  },
2085
  {
 
2087
  "output_type": "stream",
2088
  "text": [
2089
  "\r",
2090
+ "mem-ctx-8k.pth 94%[=================> ] 3.04G 53.9MB/s eta 4s "
2091
  ]
2092
  },
2093
  {
 
2095
  "output_type": "stream",
2096
  "text": [
2097
  "\r",
2098
+ "em-ctx-8k.pth 95%[==================> ] 3.05G 54.2MB/s eta 4s "
2099
  ]
2100
  },
2101
  {
 
2103
  "output_type": "stream",
2104
  "text": [
2105
  "\r",
2106
+ "m-ctx-8k.pth 95%[==================> ] 3.07G 56.2MB/s eta 4s "
2107
  ]
2108
  },
2109
  {
 
2111
  "output_type": "stream",
2112
  "text": [
2113
  "\r",
2114
+ "-ctx-8k.pth 96%[==================> ] 3.08G 55.3MB/s eta 3s "
2115
  ]
2116
  },
2117
  {
 
2119
  "output_type": "stream",
2120
  "text": [
2121
  "\r",
2122
+ "ctx-8k.pth 96%[==================> ] 3.08G 53.1MB/s eta 3s "
2123
  ]
2124
  },
2125
  {
 
2127
  "output_type": "stream",
2128
  "text": [
2129
  "\r",
2130
+ "tx-8k.pth 96%[==================> ] 3.10G 51.6MB/s eta 3s "
2131
  ]
2132
  },
2133
  {
 
2135
  "output_type": "stream",
2136
  "text": [
2137
  "\r",
2138
+ "x-8k.pth 97%[==================> ] 3.11G 51.2MB/s eta 3s "
2139
  ]
2140
  },
2141
  {
 
2143
  "output_type": "stream",
2144
  "text": [
2145
  "\r",
2146
+ "-8k.pth 97%[==================> ] 3.13G 54.8MB/s eta 2s "
2147
  ]
2148
  },
2149
  {
 
2151
  "output_type": "stream",
2152
  "text": [
2153
  "\r",
2154
+ "8k.pth 97%[==================> ] 3.13G 52.5MB/s eta 2s "
2155
  ]
2156
  },
2157
  {
 
2159
  "output_type": "stream",
2160
  "text": [
2161
  "\r",
2162
+ "k.pth 98%[==================> ] 3.14G 54.3MB/s eta 2s "
2163
  ]
2164
  },
2165
  {
 
2167
  "output_type": "stream",
2168
  "text": [
2169
  "\r",
2170
+ ".pth 98%[==================> ] 3.14G 51.0MB/s eta 2s "
2171
+ ]
2172
+ },
2173
+ {
2174
+ "name": "stdout",
2175
+ "output_type": "stream",
2176
+ "text": [
2177
+ "\r",
2178
+ "pth 98%[==================> ] 3.16G 52.4MB/s eta 2s "
2179
+ ]
2180
+ },
2181
+ {
2182
+ "name": "stdout",
2183
+ "output_type": "stream",
2184
+ "text": [
2185
+ "\r",
2186
+ "th 99%[==================> ] 3.17G 51.3MB/s eta 1s "
2187
+ ]
2188
+ },
2189
+ {
2190
+ "name": "stdout",
2191
+ "output_type": "stream",
2192
+ "text": [
2193
+ "\r",
2194
+ "h 99%[==================> ] 3.19G 50.0MB/s eta 1s "
2195
+ ]
2196
+ },
2197
+ {
2198
+ "name": "stdout",
2199
+ "output_type": "stream",
2200
+ "text": [
2201
+ "\r",
2202
+ " 99%[==================> ] 3.20G 50.3MB/s eta 1s \r",
2203
+ "v5-hs2x-L6-D4096-E0 100%[===================>] 3.21G 50.6MB/s in 67s \r\n",
2204
  "\r\n",
2205
+ "2023-08-26 01:24:15 (48.8 MB/s) - ‘v5-hs2x-L6-D4096-E0_1-mem-ctx-8k.pth’ saved [3441599109/3441599109]\r\n",
2206
  "\r\n"
2207
  ]
2208
  }
 
2216
  {
2217
  "cell_type": "code",
2218
  "execution_count": 2,
2219
+ "id": "7a2d2014",
2220
  "metadata": {
2221
  "execution": {
2222
+ "iopub.execute_input": "2023-08-26T01:24:15.329645Z",
2223
+ "iopub.status.busy": "2023-08-26T01:24:15.328840Z",
2224
+ "iopub.status.idle": "2023-08-26T01:24:15.584237Z",
2225
+ "shell.execute_reply": "2023-08-26T01:24:15.583291Z"
2226
  },
2227
  "papermill": {
2228
+ "duration": 0.288951,
2229
+ "end_time": "2023-08-26T01:24:15.586329",
2230
  "exception": false,
2231
+ "start_time": "2023-08-26T01:24:15.297378",
2232
  "status": "completed"
2233
  },
2234
  "tags": []
 
2250
  {
2251
  "cell_type": "code",
2252
  "execution_count": 3,
2253
+ "id": "64a48fa1",
2254
  "metadata": {
2255
  "execution": {
2256
+ "iopub.execute_input": "2023-08-26T01:24:15.624728Z",
2257
+ "iopub.status.busy": "2023-08-26T01:24:15.623932Z",
2258
+ "iopub.status.idle": "2023-08-26T01:24:15.878118Z",
2259
+ "shell.execute_reply": "2023-08-26T01:24:15.877195Z"
2260
  },
2261
  "papermill": {
2262
+ "duration": 0.276455,
2263
+ "end_time": "2023-08-26T01:24:15.880312",
2264
  "exception": false,
2265
+ "start_time": "2023-08-26T01:24:15.603857",
2266
  "status": "completed"
2267
  },
2268
  "tags": []
 
2282
  },
2283
  {
2284
  "cell_type": "markdown",
2285
+ "id": "818142ee",
2286
  "metadata": {
2287
  "papermill": {
2288
+ "duration": 0.016531,
2289
+ "end_time": "2023-08-26T01:24:15.913644",
2290
  "exception": false,
2291
+ "start_time": "2023-08-26T01:24:15.897113",
2292
  "status": "completed"
2293
  },
2294
  "tags": []
2295
  },
2296
  "source": [
2297
+ "# 1B5 headsize 2x (128) - V5 benchmark"
2298
  ]
2299
  },
2300
  {
2301
  "cell_type": "code",
2302
  "execution_count": 4,
2303
+ "id": "65a14e4a",
2304
  "metadata": {
2305
  "execution": {
2306
+ "iopub.execute_input": "2023-08-26T01:24:15.949884Z",
2307
+ "iopub.status.busy": "2023-08-26T01:24:15.949229Z",
2308
+ "iopub.status.idle": "2023-08-26T01:25:32.703526Z",
2309
+ "shell.execute_reply": "2023-08-26T01:25:32.702547Z"
2310
  },
2311
  "papermill": {
2312
+ "duration": 76.77519,
2313
+ "end_time": "2023-08-26T01:25:32.705679",
2314
  "exception": false,
2315
+ "start_time": "2023-08-26T01:24:15.930489",
2316
  "status": "completed"
2317
  },
2318
  "tags": []
 
2322
  "name": "stdout",
2323
  "output_type": "stream",
2324
  "text": [
2325
+ "[2023-08-26 01:24:20,440] [INFO] [real_accelerator.py:133:get_accelerator] Setting ds_accelerator to cuda (auto detect)\r\n"
2326
  ]
2327
  },
2328
  {
 
2814
  "name": "stdout",
2815
  "output_type": "stream",
2816
  "text": [
2817
+ "## Finished baseline model to eval output predictive matching (aka 0 memory?), for 1000 tokens\r\n",
 
 
 
 
 
 
2818
  "###\r\n",
2819
  "### Model validation end ###\r\n",
2820
  "###\r\n"
 
2828
  {
2829
  "cell_type": "code",
2830
  "execution_count": 5,
2831
+ "id": "7b65f1ce",
2832
  "metadata": {
2833
  "execution": {
2834
+ "iopub.execute_input": "2023-08-26T01:25:32.750445Z",
2835
+ "iopub.status.busy": "2023-08-26T01:25:32.749810Z",
2836
+ "iopub.status.idle": "2023-08-26T01:29:44.108998Z",
2837
+ "shell.execute_reply": "2023-08-26T01:29:44.108059Z"
2838
  },
2839
  "papermill": {
2840
+ "duration": 251.385401,
2841
+ "end_time": "2023-08-26T01:29:44.112163",
2842
  "exception": false,
2843
+ "start_time": "2023-08-26T01:25:32.726762",
2844
  "status": "completed"
2845
  },
2846
  "tags": []
 
2850
  "name": "stdout",
2851
  "output_type": "stream",
2852
  "text": [
2853
+ "[2023-08-26 01:25:37,449] [INFO] [real_accelerator.py:133:get_accelerator] Setting ds_accelerator to cuda (auto detect)\r\n"
2854
  ]
2855
  },
2856
  {
 
3279
  "name": "stdout",
3280
  "output_type": "stream",
3281
  "text": [
3282
+ "## Model validation for 4000 tokens : 28.025% similarity, with 1121 matched token, and 2879 token mismatch\r\n"
3283
+ ]
3284
+ },
3285
+ {
3286
+ "name": "stdout",
3287
+ "output_type": "stream",
3288
+ "text": [
3289
  "###\r\n",
3290
  "### Model validation end ###\r\n",
3291
  "###\r\n"
 
3299
  {
3300
  "cell_type": "code",
3301
  "execution_count": 6,
3302
+ "id": "4de9facd",
3303
  "metadata": {
3304
  "execution": {
3305
+ "iopub.execute_input": "2023-08-26T01:29:44.173983Z",
3306
+ "iopub.status.busy": "2023-08-26T01:29:44.173478Z",
3307
+ "iopub.status.idle": "2023-08-26T02:33:49.325748Z",
3308
+ "shell.execute_reply": "2023-08-26T02:33:49.324578Z"
3309
  },
3310
  "papermill": {
3311
+ "duration": 3845.184098,
3312
+ "end_time": "2023-08-26T02:33:49.328432",
3313
  "exception": false,
3314
+ "start_time": "2023-08-26T01:29:44.144334",
3315
  "status": "completed"
3316
  },
3317
  "tags": []
 
3321
  "name": "stdout",
3322
  "output_type": "stream",
3323
  "text": [
3324
+ "[2023-08-26 01:29:48,903] [INFO] [real_accelerator.py:133:get_accelerator] Setting ds_accelerator to cuda (auto detect)\r\n"
3325
  ]
3326
  },
3327
  {
 
4215
  },
4216
  "papermill": {
4217
  "default_parameters": {},
4218
+ "duration": 4243.976981,
4219
+ "end_time": "2023-08-26T02:33:49.795764",
4220
  "environment_variables": {},
4221
  "exception": null,
4222
  "input_path": "/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/memory-bench/Benchmark-V5headsize2x.ipynb",
4223
  "output_path": "/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/output/experiment/memory-bench/Benchmark-V5headsize2x.ipynb",
4224
  "parameters": {},
4225
+ "start_time": "2023-08-26T01:23:05.818783",
4226
  "version": "2.4.0"
4227
  }
4228
  },