diff --git "a/experiment/rwkv-x-exp/v5-memory/v5-L96-D1024-E1e-1-ctx4k-part4.ipynb" "b/experiment/rwkv-x-exp/v5-memory/v5-L96-D1024-E1e-1-ctx4k-part4.ipynb"
--- "a/experiment/rwkv-x-exp/v5-memory/v5-L96-D1024-E1e-1-ctx4k-part4.ipynb"
+++ "b/experiment/rwkv-x-exp/v5-memory/v5-L96-D1024-E1e-1-ctx4k-part4.ipynb"
@@ -3,13 +3,13 @@
   {
    "attachments": {},
    "cell_type": "markdown",
-   "id": "47af8e87",
+   "id": "61a25afb",
    "metadata": {
     "papermill": {
-     "duration": 0.002495,
-     "end_time": "2023-09-01T16:07:43.522031",
+     "duration": 0.0025,
+     "end_time": "2023-09-01T14:29:53.361768",
      "exception": false,
-     "start_time": "2023-09-01T16:07:43.519536",
+     "start_time": "2023-09-01T14:29:53.359268",
      "status": "completed"
     },
     "tags": []
@@ -28,13 +28,13 @@
   {
    "attachments": {},
    "cell_type": "markdown",
-   "id": "c3f6b24f",
+   "id": "faebc84d",
    "metadata": {
     "papermill": {
-     "duration": 0.001775,
-     "end_time": "2023-09-01T16:07:43.525720",
+     "duration": 0.001611,
+     "end_time": "2023-09-01T14:29:53.365367",
      "exception": false,
-     "start_time": "2023-09-01T16:07:43.523945",
+     "start_time": "2023-09-01T14:29:53.363756",
      "status": "completed"
     },
     "tags": []
@@ -46,19 +46,19 @@
   {
    "cell_type": "code",
    "execution_count": 1,
-   "id": "fa426fbc",
+   "id": "1a35f622",
    "metadata": {
     "execution": {
-     "iopub.execute_input": "2023-09-01T16:07:43.530142Z",
-     "iopub.status.busy": "2023-09-01T16:07:43.529955Z",
-     "iopub.status.idle": "2023-09-01T16:07:44.252350Z",
-     "shell.execute_reply": "2023-09-01T16:07:44.251383Z"
+     "iopub.execute_input": "2023-09-01T14:29:53.369695Z",
+     "iopub.status.busy": "2023-09-01T14:29:53.369518Z",
+     "iopub.status.idle": "2023-09-01T14:29:54.099056Z",
+     "shell.execute_reply": "2023-09-01T14:29:54.098006Z"
     },
     "papermill": {
-     "duration": 0.726751,
-     "end_time": "2023-09-01T16:07:44.254244",
+     "duration": 0.733769,
+     "end_time": "2023-09-01T14:29:54.100913",
      "exception": false,
-     "start_time": "2023-09-01T16:07:43.527493",
+     "start_time": "2023-09-01T14:29:53.367144",
      "status": "completed"
     },
     "tags": []
@@ -74,19 +74,19 @@
   {
    "cell_type": "code",
    "execution_count": 2,
-   "id": "4aeda75d",
+   "id": "4c1c27c2",
    "metadata": {
     "execution": {
-     "iopub.execute_input": "2023-09-01T16:07:44.259431Z",
-     "iopub.status.busy": "2023-09-01T16:07:44.259239Z",
-     "iopub.status.idle": "2023-09-01T16:07:47.146736Z",
-     "shell.execute_reply": "2023-09-01T16:07:47.145898Z"
+     "iopub.execute_input": "2023-09-01T14:29:54.105696Z",
+     "iopub.status.busy": "2023-09-01T14:29:54.105496Z",
+     "iopub.status.idle": "2023-09-01T14:29:56.998968Z",
+     "shell.execute_reply": "2023-09-01T14:29:56.998026Z"
     },
     "papermill": {
-     "duration": 2.892021,
-     "end_time": "2023-09-01T16:07:47.148560",
+     "duration": 2.897843,
+     "end_time": "2023-09-01T14:29:57.000715",
      "exception": false,
-     "start_time": "2023-09-01T16:07:44.256539",
+     "start_time": "2023-09-01T14:29:54.102872",
      "status": "completed"
     },
     "tags": []
@@ -118,19 +118,19 @@
   {
    "cell_type": "code",
    "execution_count": 3,
-   "id": "73134ea0",
+   "id": "2a370570",
    "metadata": {
     "execution": {
-     "iopub.execute_input": "2023-09-01T16:07:47.153674Z",
-     "iopub.status.busy": "2023-09-01T16:07:47.153460Z",
-     "iopub.status.idle": "2023-09-01T16:07:47.160198Z",
-     "shell.execute_reply": "2023-09-01T16:07:47.159532Z"
+     "iopub.execute_input": "2023-09-01T14:29:57.005910Z",
+     "iopub.status.busy": "2023-09-01T14:29:57.005718Z",
+     "iopub.status.idle": "2023-09-01T14:29:57.012155Z",
+     "shell.execute_reply": "2023-09-01T14:29:57.011618Z"
     },
     "papermill": {
-     "duration": 0.01069,
-     "end_time": "2023-09-01T16:07:47.161362",
+     "duration": 0.010415,
+     "end_time": "2023-09-01T14:29:57.013297",
      "exception": false,
-     "start_time": "2023-09-01T16:07:47.150672",
+     "start_time": "2023-09-01T14:29:57.002882",
      "status": "completed"
     },
     "tags": []
@@ -193,19 +193,19 @@
   {
    "cell_type": "code",
    "execution_count": 4,
-   "id": "3f3071e2",
+   "id": "d92e9387",
    "metadata": {
     "execution": {
-     "iopub.execute_input": "2023-09-01T16:07:47.166226Z",
-     "iopub.status.busy": "2023-09-01T16:07:47.166054Z",
-     "iopub.status.idle": "2023-09-01T16:08:28.493449Z",
-     "shell.execute_reply": "2023-09-01T16:08:28.492550Z"
+     "iopub.execute_input": "2023-09-01T14:29:57.019137Z",
+     "iopub.status.busy": "2023-09-01T14:29:57.018963Z",
+     "iopub.status.idle": "2023-09-01T14:30:45.517596Z",
+     "shell.execute_reply": "2023-09-01T14:30:45.516964Z"
     },
     "papermill": {
-     "duration": 41.332048,
-     "end_time": "2023-09-01T16:08:28.495483",
+     "duration": 48.503927,
+     "end_time": "2023-09-01T14:30:45.519409",
      "exception": false,
-     "start_time": "2023-09-01T16:07:47.163435",
+     "start_time": "2023-09-01T14:29:57.015482",
      "status": "completed"
     },
     "tags": []
@@ -215,16 +215,15 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "--2023-09-01 16:07:47--  https://huggingface.co/rwkv-x-dev/rwkv-x-playground/resolve/main/experiment/rwkv-x-exp/v5-memory/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/model/v5-L96-D1024-E0_1-mem-ctx-2k.pth\r\n",
-      "Resolving huggingface.co (huggingface.co)... "
+      "--2023-09-01 14:29:57--  https://huggingface.co/rwkv-x-dev/rwkv-x-playground/resolve/main/experiment/rwkv-x-exp/v5-memory/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/model/v5-L96-D1024-E0_1-mem-ctx-2k.pth\r\n",
+      "Resolving huggingface.co (huggingface.co)... 18.165.122.11, 18.165.122.120, 18.165.122.101, ...\r\n",
+      "Connecting to huggingface.co (huggingface.co)|18.165.122.11|:443... connected.\r\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "18.165.122.30, 18.165.122.120, 18.165.122.101, ...\r\n",
-      "Connecting to huggingface.co (huggingface.co)|18.165.122.30|:443... connected.\r\n",
       "HTTP request sent, awaiting response... "
      ]
     },
@@ -233,8 +232,8 @@
      "output_type": "stream",
      "text": [
       "302 Found\r\n",
-      "Location: https://cdn-lfs.huggingface.co/repos/2e/f7/2ef78555202aa92abdbdf476ce3d0fd5a8b15f7245edf0b80d4d30572355f30d/8ce9e4f8e10ab705b4705845936ac1ff97e2d060a5d29f1d209a510c59435b3c?response-content-disposition=attachment%3B+filename*%3DUTF-8%27%27v5-L96-D1024-E0_1-mem-ctx-2k.pth%3B+filename%3D%22v5-L96-D1024-E0_1-mem-ctx-2k.pth%22%3B&Expires=1693843667&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTY5Mzg0MzY2N319LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy5odWdnaW5nZmFjZS5jby9yZXBvcy8yZS9mNy8yZWY3ODU1NTIwMmFhOTJhYmRiZGY0NzZjZTNkMGZkNWE4YjE1ZjcyNDVlZGYwYjgwZDRkMzA1NzIzNTVmMzBkLzhjZTllNGY4ZTEwYWI3MDViNDcwNTg0NTkzNmFjMWZmOTdlMmQwNjBhNWQyOWYxZDIwOWE1MTBjNTk0MzViM2M%7EcmVzcG9uc2UtY29udGVudC1kaXNwb3NpdGlvbj0qIn1dfQ__&Signature=oRfsR7g8dO1aFa930WIR0FE%7EAVzdeWm8oO0uiNxjYyUyEkuvuP21JWmgxqm83rtmJuO9qhhl9xQgr29iKAYvk7NdLLGamvu0aSAybDUOvAD6IU5Lx-xd9Wpiu%7EoBDRCvqCUIWmCPjKFNjBIIYcmlPy7PCfSwLvaCvqHFOzKAIvAPLiw7t6vFni0IiRgVuaNRC0MWJ7ttIulWr-B1hVueEpKk6WoUNTzNFOlzxikSMBzE-al1uVtw3OKrSoETHKpiz78dTgPpHPiFPdkI-KrMK5O90O2-qFxySPltO2sUexoxuxMLOTqPRQF428FXXASEASV8hJ1ggt2VxslEPmfj7A__&Key-Pair-Id=KVTP0A1DKRTAX [following]\r\n",
-      "--2023-09-01 16:07:47--  https://cdn-lfs.huggingface.co/repos/2e/f7/2ef78555202aa92abdbdf476ce3d0fd5a8b15f7245edf0b80d4d30572355f30d/8ce9e4f8e10ab705b4705845936ac1ff97e2d060a5d29f1d209a510c59435b3c?response-content-disposition=attachment%3B+filename*%3DUTF-8%27%27v5-L96-D1024-E0_1-mem-ctx-2k.pth%3B+filename%3D%22v5-L96-D1024-E0_1-mem-ctx-2k.pth%22%3B&Expires=1693843667&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTY5Mzg0MzY2N319LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy5odWdnaW5nZmFjZS5jby9yZXBvcy8yZS9mNy8yZWY3ODU1NTIwMmFhOTJhYmRiZGY0NzZjZTNkMGZkNWE4YjE1ZjcyNDVlZGYwYjgwZDRkMzA1NzIzNTVmMzBkLzhjZTllNGY4ZTEwYWI3MDViNDcwNTg0NTkzNmFjMWZmOTdlMmQwNjBhNWQyOWYxZDIwOWE1MTBjNTk0MzViM2M%7EcmVzcG9uc2UtY29udGVudC1kaXNwb3NpdGlvbj0qIn1dfQ__&Signature=oRfsR7g8dO1aFa930WIR0FE%7EAVzdeWm8oO0uiNxjYyUyEkuvuP21JWmgxqm83rtmJuO9qhhl9xQgr29iKAYvk7NdLLGamvu0aSAybDUOvAD6IU5Lx-xd9Wpiu%7EoBDRCvqCUIWmCPjKFNjBIIYcmlPy7PCfSwLvaCvqHFOzKAIvAPLiw7t6vFni0IiRgVuaNRC0MWJ7ttIulWr-B1hVueEpKk6WoUNTzNFOlzxikSMBzE-al1uVtw3OKrSoETHKpiz78dTgPpHPiFPdkI-KrMK5O90O2-qFxySPltO2sUexoxuxMLOTqPRQF428FXXASEASV8hJ1ggt2VxslEPmfj7A__&Key-Pair-Id=KVTP0A1DKRTAX\r\n",
+      "Location: https://cdn-lfs.huggingface.co/repos/2e/f7/2ef78555202aa92abdbdf476ce3d0fd5a8b15f7245edf0b80d4d30572355f30d/8ce9e4f8e10ab705b4705845936ac1ff97e2d060a5d29f1d209a510c59435b3c?response-content-disposition=attachment%3B+filename*%3DUTF-8%27%27v5-L96-D1024-E0_1-mem-ctx-2k.pth%3B+filename%3D%22v5-L96-D1024-E0_1-mem-ctx-2k.pth%22%3B&Expires=1693837797&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTY5MzgzNzc5N319LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy5odWdnaW5nZmFjZS5jby9yZXBvcy8yZS9mNy8yZWY3ODU1NTIwMmFhOTJhYmRiZGY0NzZjZTNkMGZkNWE4YjE1ZjcyNDVlZGYwYjgwZDRkMzA1NzIzNTVmMzBkLzhjZTllNGY4ZTEwYWI3MDViNDcwNTg0NTkzNmFjMWZmOTdlMmQwNjBhNWQyOWYxZDIwOWE1MTBjNTk0MzViM2M%7EcmVzcG9uc2UtY29udGVudC1kaXNwb3NpdGlvbj0qIn1dfQ__&Signature=Oj3cBs20M1l5xhL-lcvqDUDPZuZTfgBbqIzqFpODlirkCJW-mMDRtGQ0Q9a7cB7ARNrzzd9Yk5I%7ETlLT%7E8zakkO6YaRYVem9GpWWSnfSlfbAvhgK5eXNdhAYPdXYxFVN%7E9wVpYRos6vAvDbIteUio2i2%7E4uC%7EuYYBdjReu6eNcjawkte9N-cEbaABvbAUsChE2wDh8lZebMqPNq7Jdtg9asXY7hZBBaCtih1XtaMshRhqwRpU64CyM%7E2mk6dy4Or8HfZrP05l4vXZ4H0ME9ylwE8aOlsvsHtSt8FdcrhvndbOYc2NmkJRiAkzEZPUVWHqZ6uS91EDtJWDK%7Exo5wYbA__&Key-Pair-Id=KVTP0A1DKRTAX [following]\r\n",
+      "--2023-09-01 14:29:57--  https://cdn-lfs.huggingface.co/repos/2e/f7/2ef78555202aa92abdbdf476ce3d0fd5a8b15f7245edf0b80d4d30572355f30d/8ce9e4f8e10ab705b4705845936ac1ff97e2d060a5d29f1d209a510c59435b3c?response-content-disposition=attachment%3B+filename*%3DUTF-8%27%27v5-L96-D1024-E0_1-mem-ctx-2k.pth%3B+filename%3D%22v5-L96-D1024-E0_1-mem-ctx-2k.pth%22%3B&Expires=1693837797&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTY5MzgzNzc5N319LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy5odWdnaW5nZmFjZS5jby9yZXBvcy8yZS9mNy8yZWY3ODU1NTIwMmFhOTJhYmRiZGY0NzZjZTNkMGZkNWE4YjE1ZjcyNDVlZGYwYjgwZDRkMzA1NzIzNTVmMzBkLzhjZTllNGY4ZTEwYWI3MDViNDcwNTg0NTkzNmFjMWZmOTdlMmQwNjBhNWQyOWYxZDIwOWE1MTBjNTk0MzViM2M%7EcmVzcG9uc2UtY29udGVudC1kaXNwb3NpdGlvbj0qIn1dfQ__&Signature=Oj3cBs20M1l5xhL-lcvqDUDPZuZTfgBbqIzqFpODlirkCJW-mMDRtGQ0Q9a7cB7ARNrzzd9Yk5I%7ETlLT%7E8zakkO6YaRYVem9GpWWSnfSlfbAvhgK5eXNdhAYPdXYxFVN%7E9wVpYRos6vAvDbIteUio2i2%7E4uC%7EuYYBdjReu6eNcjawkte9N-cEbaABvbAUsChE2wDh8lZebMqPNq7Jdtg9asXY7hZBBaCtih1XtaMshRhqwRpU64CyM%7E2mk6dy4Or8HfZrP05l4vXZ4H0ME9ylwE8aOlsvsHtSt8FdcrhvndbOYc2NmkJRiAkzEZPUVWHqZ6uS91EDtJWDK%7Exo5wYbA__&Key-Pair-Id=KVTP0A1DKRTAX\r\n",
       "Resolving cdn-lfs.huggingface.co (cdn-lfs.huggingface.co)... "
      ]
     },
@@ -242,8 +241,14 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "108.157.214.31, 108.157.214.82, 108.157.214.46, ...\r\n",
-      "Connecting to cdn-lfs.huggingface.co (cdn-lfs.huggingface.co)|108.157.214.31|:443... connected.\r\n",
+      "108.157.214.7, 108.157.214.82, 108.157.214.31, ...\r\n",
+      "Connecting to cdn-lfs.huggingface.co (cdn-lfs.huggingface.co)|108.157.214.7|:443... connected.\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
       "HTTP request sent, awaiting response... "
      ]
     },
@@ -264,7 +269,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "         v5-L96-D10   0%[                    ]   9.55M  47.7MB/s               "
+      "         v5-L96-D10   0%[                    ]   3.99M  19.6MB/s               "
      ]
     },
     {
@@ -272,7 +277,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "        v5-L96-D102   0%[                    ]  25.52M  63.8MB/s               "
+      "        v5-L96-D102   0%[                    ]  10.66M  25.4MB/s               "
      ]
     },
     {
@@ -280,7 +285,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "       v5-L96-D1024   1%[                    ]  40.15M  66.9MB/s               "
+      "       v5-L96-D1024   0%[                    ]  21.19M  33.8MB/s               "
      ]
     },
     {
@@ -288,7 +293,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "      v5-L96-D1024-   2%[                    ]  54.19M  66.0MB/s               "
+      "      v5-L96-D1024-   1%[                    ]  31.80M  38.4MB/s               "
      ]
     },
     {
@@ -296,7 +301,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "     v5-L96-D1024-E   2%[                    ]  69.58M  68.1MB/s               "
+      "     v5-L96-D1024-E   1%[                    ]  42.83M  41.7MB/s               "
      ]
     },
     {
@@ -304,7 +309,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "    v5-L96-D1024-E0   3%[                    ]  86.63M  70.9MB/s               "
+      "    v5-L96-D1024-E0   1%[                    ]  52.52M  42.8MB/s               "
      ]
     },
     {
@@ -312,7 +317,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "   v5-L96-D1024-E0_   3%[                    ] 100.76M  70.9MB/s               "
+      "   v5-L96-D1024-E0_   2%[                    ]  62.17M  43.5MB/s               "
      ]
     },
     {
@@ -320,7 +325,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "  v5-L96-D1024-E0_1   4%[                    ] 117.23M  72.3MB/s               "
+      "  v5-L96-D1024-E0_1   2%[                    ]  72.74M  44.7MB/s               "
      ]
     },
     {
@@ -328,7 +333,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      " v5-L96-D1024-E0_1-   4%[                    ] 128.59M  70.5MB/s               "
+      " v5-L96-D1024-E0_1-   3%[                    ]  88.50M  48.4MB/s               "
      ]
     },
     {
@@ -336,7 +341,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "v5-L96-D1024-E0_1-m   5%[>                   ] 140.63M  69.5MB/s               "
+      "v5-L96-D1024-E0_1-m   3%[                    ]  99.19M  48.7MB/s               "
      ]
     },
     {
@@ -344,7 +349,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "5-L96-D1024-E0_1-me   5%[>                   ] 154.46M  69.0MB/s               "
+      "5-L96-D1024-E0_1-me   4%[                    ] 111.10M  49.4MB/s               "
      ]
     },
     {
@@ -352,7 +357,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-L96-D1024-E0_1-mem   6%[>                   ] 167.44M  68.2MB/s               "
+      "-L96-D1024-E0_1-mem   4%[                    ] 124.07M  50.2MB/s               "
      ]
     },
     {
@@ -360,7 +365,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "L96-D1024-E0_1-mem-   6%[>                   ] 183.80M  69.2MB/s               "
+      "L96-D1024-E0_1-mem-   5%[>                   ] 136.08M  50.8MB/s               "
      ]
     },
     {
@@ -368,7 +373,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "96-D1024-E0_1-mem-c   7%[>                   ] 196.75M  68.5MB/s               "
+      "96-D1024-E0_1-mem-c   5%[>                   ] 146.83M  51.0MB/s               "
      ]
     },
     {
@@ -376,7 +381,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "6-D1024-E0_1-mem-ct   7%[>                   ] 211.52M  68.8MB/s    eta 36s    "
+      "6-D1024-E0_1-mem-ct   5%[>                   ] 161.35M  52.4MB/s    eta 48s    "
      ]
     },
     {
@@ -384,7 +389,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-D1024-E0_1-mem-ctx   8%[>                   ] 221.50M  68.8MB/s    eta 36s    "
+      "-D1024-E0_1-mem-ctx   6%[>                   ] 173.13M  54.4MB/s    eta 48s    "
      ]
     },
     {
@@ -392,7 +397,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "D1024-E0_1-mem-ctx-   8%[>                   ] 236.51M  68.5MB/s    eta 36s    "
+      "D1024-E0_1-mem-ctx-   6%[>                   ] 181.08M  54.6MB/s    eta 48s    "
      ]
     },
     {
@@ -400,7 +405,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "1024-E0_1-mem-ctx-2   9%[>                   ] 250.06M  68.4MB/s    eta 36s    "
+      "1024-E0_1-mem-ctx-2   7%[>                   ] 194.72M  56.3MB/s    eta 48s    "
      ]
     },
     {
@@ -408,7 +413,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "024-E0_1-mem-ctx-2k   9%[>                   ] 263.79M  67.2MB/s    eta 36s    "
+      "024-E0_1-mem-ctx-2k   7%[>                   ] 208.39M  56.7MB/s    eta 48s    "
      ]
     },
     {
@@ -416,7 +421,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "24-E0_1-mem-ctx-2k.  10%[=>                  ] 279.10M  68.0MB/s    eta 36s    "
+      "24-E0_1-mem-ctx-2k.   8%[>                   ] 223.11M  57.9MB/s    eta 46s    "
      ]
     },
     {
@@ -424,7 +429,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "4-E0_1-mem-ctx-2k.p  10%[=>                  ] 293.41M  67.5MB/s    eta 36s    "
+      "4-E0_1-mem-ctx-2k.p   8%[>                   ] 233.50M  58.4MB/s    eta 46s    "
      ]
     },
     {
@@ -432,7 +437,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-E0_1-mem-ctx-2k.pt  11%[=>                  ] 307.73M  66.9MB/s    eta 36s    "
+      "-E0_1-mem-ctx-2k.pt   9%[>                   ] 245.26M  58.7MB/s    eta 46s    "
      ]
     },
     {
@@ -440,7 +445,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "E0_1-mem-ctx-2k.pth  11%[=>                  ] 318.95M  65.5MB/s    eta 36s    "
+      "E0_1-mem-ctx-2k.pth   9%[>                   ] 257.88M  59.2MB/s    eta 46s    "
      ]
     },
     {
@@ -448,7 +453,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "0_1-mem-ctx-2k.pth   12%[=>                  ] 333.68M  65.1MB/s    eta 36s    "
+      "0_1-mem-ctx-2k.pth   10%[=>                  ] 270.60M  57.8MB/s    eta 46s    "
      ]
     },
     {
@@ -456,7 +461,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "_1-mem-ctx-2k.pth    12%[=>                  ] 346.18M  65.5MB/s    eta 35s    "
+      "_1-mem-ctx-2k.pth    10%[=>                  ] 283.37M  58.1MB/s    eta 44s    "
      ]
     },
     {
@@ -464,7 +469,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "1-mem-ctx-2k.pth     13%[=>                  ] 363.53M  66.0MB/s    eta 35s    "
+      "1-mem-ctx-2k.pth     10%[=>                  ] 295.02M  58.0MB/s    eta 44s    "
      ]
     },
     {
@@ -472,7 +477,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-mem-ctx-2k.pth      13%[=>                  ] 377.06M  66.4MB/s    eta 35s    "
+      "-mem-ctx-2k.pth      11%[=>                  ] 306.49M  58.0MB/s    eta 44s    "
      ]
     },
     {
@@ -480,7 +485,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "mem-ctx-2k.pth       14%[=>                  ] 389.94M  66.7MB/s    eta 35s    "
+      "mem-ctx-2k.pth       11%[=>                  ] 320.15M  59.1MB/s    eta 44s    "
      ]
     },
     {
@@ -488,7 +493,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "em-ctx-2k.pth        15%[==>                 ] 407.11M  67.1MB/s    eta 35s    "
+      "em-ctx-2k.pth        12%[=>                  ] 332.47M  58.9MB/s    eta 44s    "
      ]
     },
     {
@@ -496,7 +501,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "m-ctx-2k.pth         15%[==>                 ] 416.75M  66.1MB/s    eta 34s    "
+      "m-ctx-2k.pth         12%[=>                  ] 348.19M  60.9MB/s    eta 42s    "
      ]
     },
     {
@@ -504,7 +509,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-ctx-2k.pth          16%[==>                 ] 435.34M  67.3MB/s    eta 34s    "
+      "-ctx-2k.pth          13%[=>                  ] 361.80M  61.1MB/s    eta 42s    "
      ]
     },
     {
@@ -512,7 +517,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "ctx-2k.pth           16%[==>                 ] 449.90M  68.5MB/s    eta 34s    "
+      "ctx-2k.pth           13%[=>                  ] 374.68M  61.3MB/s    eta 42s    "
      ]
     },
     {
@@ -520,7 +525,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "tx-2k.pth            17%[==>                 ] 463.37M  67.1MB/s    eta 34s    "
+      "tx-2k.pth            14%[=>                  ] 385.51M  61.4MB/s    eta 42s    "
      ]
     },
     {
@@ -528,7 +533,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "x-2k.pth             17%[==>                 ] 479.83M  69.2MB/s    eta 34s    "
+      "x-2k.pth             14%[=>                  ] 397.08M  60.3MB/s    eta 42s    "
      ]
     },
     {
@@ -536,7 +541,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-2k.pth              18%[==>                 ] 494.33M  69.0MB/s    eta 32s    "
+      "-2k.pth              15%[==>                 ] 408.65M  59.6MB/s    eta 41s    "
      ]
     },
     {
@@ -544,7 +549,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "2k.pth               18%[==>                 ] 501.46M  66.1MB/s    eta 32s    "
+      "2k.pth               15%[==>                 ] 419.96M  59.2MB/s    eta 41s    "
      ]
     },
     {
@@ -552,7 +557,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "k.pth                19%[==>                 ] 516.75M  66.9MB/s    eta 32s    "
+      "k.pth                16%[==>                 ] 433.00M  58.9MB/s    eta 41s    "
      ]
     },
     {
@@ -560,7 +565,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      ".pth                 19%[==>                 ] 528.33M  66.1MB/s    eta 32s    "
+      ".pth                 16%[==>                 ] 445.07M  58.7MB/s    eta 41s    "
      ]
     },
     {
@@ -568,7 +573,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "pth                  20%[===>                ] 545.36M  67.1MB/s    eta 32s    "
+      "pth                  17%[==>                 ] 458.75M  59.3MB/s    eta 41s    "
      ]
     },
     {
@@ -576,7 +581,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "th                   20%[===>                ] 559.54M  68.5MB/s    eta 32s    "
+      "th                   17%[==>                 ] 470.07M  58.5MB/s    eta 40s    "
      ]
     },
     {
@@ -584,7 +589,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "h                    21%[===>                ] 572.17M  66.7MB/s    eta 32s    "
+      "h                    17%[==>                 ] 483.07M  59.4MB/s    eta 40s    "
      ]
     },
     {
@@ -592,7 +597,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "                     21%[===>                ] 586.74M  67.4MB/s    eta 32s    "
+      "                     18%[==>                 ] 496.15M  60.1MB/s    eta 40s    "
      ]
     },
     {
@@ -600,7 +605,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "                  v  22%[===>                ] 598.45M  67.3MB/s    eta 32s    "
+      "                  v  18%[==>                 ] 508.07M  59.9MB/s    eta 40s    "
      ]
     },
     {
@@ -608,7 +613,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "                 v5  22%[===>                ] 618.04M  67.9MB/s    eta 32s    "
+      "                 v5  19%[==>                 ] 519.06M  59.0MB/s    eta 40s    "
      ]
     },
     {
@@ -616,7 +621,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "                v5-  23%[===>                ] 633.02M  69.9MB/s    eta 30s    "
+      "                v5-  19%[==>                 ] 530.18M  57.3MB/s    eta 38s    "
      ]
     },
     {
@@ -624,7 +629,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "               v5-L  24%[===>                ] 647.64M  68.9MB/s    eta 30s    "
+      "               v5-L  20%[===>                ] 541.83M  56.1MB/s    eta 38s    "
      ]
     },
     {
@@ -632,7 +637,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "              v5-L9  24%[===>                ] 659.74M  66.9MB/s    eta 30s    "
+      "              v5-L9  20%[===>                ] 554.81M  56.6MB/s    eta 38s    "
      ]
     },
     {
@@ -640,7 +645,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "             v5-L96  24%[===>                ] 670.51M  66.4MB/s    eta 30s    "
+      "             v5-L96  20%[===>                ] 563.83M  56.3MB/s    eta 38s    "
      ]
     },
     {
@@ -648,7 +653,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "            v5-L96-  25%[====>               ] 682.96M  65.6MB/s    eta 30s    "
+      "            v5-L96-  21%[===>                ] 574.13M  55.3MB/s    eta 38s    "
      ]
     },
     {
@@ -656,7 +661,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "           v5-L96-D  25%[====>               ] 696.74M  66.1MB/s    eta 30s    "
+      "           v5-L96-D  21%[===>                ] 581.91M  54.7MB/s    eta 38s    "
      ]
     },
     {
@@ -664,7 +669,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "          v5-L96-D1  25%[====>               ] 697.74M  63.5MB/s    eta 30s    "
+      "          v5-L96-D1  21%[===>                ] 582.27M  51.7MB/s    eta 38s    "
      ]
     },
     {
@@ -672,7 +677,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "         v5-L96-D10  26%[====>               ] 710.39M  62.7MB/s    eta 30s    "
+      "         v5-L96-D10  21%[===>                ] 590.72M  50.5MB/s    eta 38s    "
      ]
     },
     {
@@ -680,7 +685,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "        v5-L96-D102  26%[====>               ] 724.80M  63.2MB/s    eta 30s    "
+      "        v5-L96-D102  22%[===>                ] 599.21M  49.3MB/s    eta 38s    "
      ]
     },
     {
@@ -688,7 +693,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "       v5-L96-D1024  27%[====>               ] 737.01M  63.0MB/s    eta 30s    "
+      "       v5-L96-D1024  22%[===>                ] 612.27M  49.1MB/s    eta 38s    "
      ]
     },
     {
@@ -696,7 +701,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "      v5-L96-D1024-  27%[====>               ] 751.40M  63.0MB/s    eta 29s    "
+      "      v5-L96-D1024-  23%[===>                ] 623.85M  49.8MB/s    eta 38s    "
      ]
     },
     {
@@ -704,7 +709,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "     v5-L96-D1024-E  28%[====>               ] 766.75M  62.9MB/s    eta 29s    "
+      "     v5-L96-D1024-E  23%[===>                ] 637.04M  50.0MB/s    eta 38s    "
      ]
     },
     {
@@ -712,7 +717,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "    v5-L96-D1024-E0  28%[====>               ] 777.36M  61.6MB/s    eta 29s    "
+      "    v5-L96-D1024-E0  24%[===>                ] 649.94M  51.1MB/s    eta 38s    "
      ]
     },
     {
@@ -720,7 +725,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "   v5-L96-D1024-E0_  29%[====>               ] 791.31M  62.1MB/s    eta 29s    "
+      "   v5-L96-D1024-E0_  24%[===>                ] 659.05M  49.4MB/s    eta 38s    "
      ]
     },
     {
@@ -728,7 +733,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "  v5-L96-D1024-E0_1  29%[====>               ] 805.24M  62.1MB/s    eta 29s    "
+      "  v5-L96-D1024-E0_1  24%[===>                ] 671.48M  50.4MB/s    eta 38s    "
      ]
     },
     {
@@ -736,7 +741,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      " v5-L96-D1024-E0_1-  30%[=====>              ] 819.50M  61.4MB/s    eta 28s    "
+      " v5-L96-D1024-E0_1-  25%[====>               ] 682.12M  49.7MB/s    eta 37s    "
      ]
     },
     {
@@ -744,7 +749,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "v5-L96-D1024-E0_1-m  30%[=====>              ] 833.05M  59.9MB/s    eta 28s    "
+      "v5-L96-D1024-E0_1-m  25%[====>               ] 694.30M  50.5MB/s    eta 37s    "
      ]
     },
     {
@@ -752,7 +757,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "5-L96-D1024-E0_1-me  31%[=====>              ] 847.23M  60.3MB/s    eta 28s    "
+      "5-L96-D1024-E0_1-me  26%[====>               ] 706.79M  50.5MB/s    eta 37s    "
      ]
     },
     {
@@ -760,7 +765,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-L96-D1024-E0_1-mem  31%[=====>              ] 859.42M  61.8MB/s    eta 28s    "
+      "-L96-D1024-E0_1-mem  26%[====>               ] 718.11M  50.9MB/s    eta 37s    "
      ]
     },
     {
@@ -768,7 +773,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "L96-D1024-E0_1-mem-  32%[=====>              ] 873.07M  61.7MB/s    eta 28s    "
+      "L96-D1024-E0_1-mem-  27%[====>               ] 729.46M  51.7MB/s    eta 37s    "
      ]
     },
     {
@@ -776,7 +781,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "96-D1024-E0_1-mem-c  32%[=====>              ] 885.46M  62.1MB/s    eta 27s    "
+      "96-D1024-E0_1-mem-c  27%[====>               ] 740.72M  51.8MB/s    eta 35s    "
      ]
     },
     {
@@ -784,7 +789,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "6-D1024-E0_1-mem-ct  33%[=====>              ] 899.72M  65.0MB/s    eta 27s    "
+      "6-D1024-E0_1-mem-ct  27%[====>               ] 754.58M  56.8MB/s    eta 35s    "
      ]
     },
     {
@@ -792,7 +797,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-D1024-E0_1-mem-ctx  33%[=====>              ] 914.23M  66.2MB/s    eta 27s    "
+      "-D1024-E0_1-mem-ctx  28%[====>               ] 770.62M  59.2MB/s    eta 35s    "
      ]
     },
     {
@@ -800,7 +805,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "D1024-E0_1-mem-ctx-  34%[=====>              ] 930.86M  66.9MB/s    eta 27s    "
+      "D1024-E0_1-mem-ctx-  29%[====>               ] 784.93M  60.5MB/s    eta 35s    "
      ]
     },
     {
@@ -808,7 +813,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "1024-E0_1-mem-ctx-2  35%[======>             ] 943.63M  66.7MB/s    eta 27s    "
+      "1024-E0_1-mem-ctx-2  29%[====>               ] 796.29M  60.8MB/s    eta 35s    "
      ]
     },
     {
@@ -816,7 +821,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "024-E0_1-mem-ctx-2k  35%[======>             ] 952.93M  66.0MB/s    eta 26s    "
+      "024-E0_1-mem-ctx-2k  29%[====>               ] 805.85M  59.8MB/s    eta 34s    "
      ]
     },
     {
@@ -824,7 +829,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "24-E0_1-mem-ctx-2k.  35%[======>             ] 970.03M  66.9MB/s    eta 26s    "
+      "24-E0_1-mem-ctx-2k.  30%[=====>              ] 814.11M  58.2MB/s    eta 34s    "
      ]
     },
     {
@@ -832,7 +837,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "4-E0_1-mem-ctx-2k.p  36%[======>             ] 984.46M  67.1MB/s    eta 26s    "
+      "4-E0_1-mem-ctx-2k.p  30%[=====>              ] 822.72M  57.0MB/s    eta 34s    "
      ]
     },
     {
@@ -840,7 +845,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-E0_1-mem-ctx-2k.pt  37%[======>             ] 998.60M  66.9MB/s    eta 26s    "
+      "-E0_1-mem-ctx-2k.pt  30%[=====>              ] 831.16M  56.0MB/s    eta 34s    "
      ]
     },
     {
@@ -848,7 +853,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "E0_1-mem-ctx-2k.pth  37%[======>             ]   1013M  67.6MB/s    eta 26s    "
+      "E0_1-mem-ctx-2k.pth  31%[=====>              ] 842.53M  56.4MB/s    eta 34s    "
      ]
     },
     {
@@ -856,7 +861,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "0_1-mem-ctx-2k.pth   38%[======>             ]   1.00G  67.6MB/s    eta 25s    "
+      "0_1-mem-ctx-2k.pth   31%[=====>              ] 858.40M  58.5MB/s    eta 33s    "
      ]
     },
     {
@@ -864,7 +869,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "_1-mem-ctx-2k.pth    38%[======>             ]   1.02G  67.4MB/s    eta 25s    "
+      "_1-mem-ctx-2k.pth    32%[=====>              ] 872.58M  59.2MB/s    eta 33s    "
      ]
     },
     {
@@ -872,7 +877,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "1-mem-ctx-2k.pth     39%[======>             ]   1.03G  68.0MB/s    eta 25s    "
+      "1-mem-ctx-2k.pth     32%[=====>              ] 883.75M  58.7MB/s    eta 33s    "
      ]
     },
     {
@@ -880,7 +885,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-mem-ctx-2k.pth      39%[======>             ]   1.04G  68.1MB/s    eta 25s    "
+      "-mem-ctx-2k.pth      33%[=====>              ] 899.60M  60.0MB/s    eta 33s    "
      ]
     },
     {
@@ -888,7 +893,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "mem-ctx-2k.pth       40%[=======>            ]   1.06G  68.1MB/s    eta 25s    "
+      "mem-ctx-2k.pth       33%[=====>              ] 915.75M  61.6MB/s    eta 33s    "
      ]
     },
     {
@@ -896,7 +901,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "em-ctx-2k.pth        40%[=======>            ]   1.07G  69.9MB/s    eta 24s    "
+      "em-ctx-2k.pth        34%[=====>              ] 931.13M  62.9MB/s    eta 31s    "
      ]
     },
     {
@@ -904,7 +909,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "m-ctx-2k.pth         41%[=======>            ]   1.08G  68.7MB/s    eta 24s    "
+      "m-ctx-2k.pth         34%[=====>              ] 943.01M  62.9MB/s    eta 31s    "
      ]
     },
     {
@@ -912,7 +917,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-ctx-2k.pth          41%[=======>            ]   1.10G  68.9MB/s    eta 24s    "
+      "-ctx-2k.pth          35%[======>             ] 953.42M  61.9MB/s    eta 31s    "
      ]
     },
     {
@@ -920,7 +925,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "ctx-2k.pth           42%[=======>            ]   1.11G  67.5MB/s    eta 24s    "
+      "ctx-2k.pth           35%[======>             ] 964.43M  60.3MB/s    eta 31s    "
      ]
     },
     {
@@ -928,7 +933,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "tx-2k.pth            42%[=======>            ]   1.12G  67.3MB/s    eta 24s    "
+      "tx-2k.pth            36%[======>             ] 977.07M  58.9MB/s    eta 31s    "
      ]
     },
     {
@@ -936,7 +941,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "x-2k.pth             43%[=======>            ]   1.13G  66.7MB/s    eta 23s    "
+      "x-2k.pth             36%[======>             ] 988.36M  59.6MB/s    eta 30s    "
      ]
     },
     {
@@ -944,7 +949,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-2k.pth              43%[=======>            ]   1.15G  68.2MB/s    eta 23s    "
+      "-2k.pth              37%[======>             ] 999.69M  60.2MB/s    eta 30s    "
      ]
     },
     {
@@ -952,7 +957,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "2k.pth               44%[=======>            ]   1.16G  65.2MB/s    eta 23s    "
+      "2k.pth               37%[======>             ]   1011M  60.9MB/s    eta 30s    "
      ]
     },
     {
@@ -960,7 +965,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "k.pth                44%[=======>            ]   1.17G  64.3MB/s    eta 23s    "
+      "k.pth                37%[======>             ]   1023M  61.5MB/s    eta 30s    "
      ]
     },
     {
@@ -968,7 +973,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      ".pth                 44%[=======>            ]   1.18G  64.7MB/s    eta 23s    "
+      ".pth                 38%[======>             ]   1.01G  63.0MB/s    eta 30s    "
      ]
     },
     {
@@ -976,7 +981,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "pth                  45%[========>           ]   1.20G  65.2MB/s    eta 22s    "
+      "pth                  38%[======>             ]   1.02G  62.0MB/s    eta 29s    "
      ]
     },
     {
@@ -984,7 +989,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "th                   45%[========>           ]   1.21G  64.1MB/s    eta 22s    "
+      "th                   39%[======>             ]   1.03G  61.4MB/s    eta 29s    "
      ]
     },
     {
@@ -992,7 +997,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "h                    46%[========>           ]   1.22G  65.4MB/s    eta 22s    "
+      "h                    39%[======>             ]   1.04G  61.5MB/s    eta 29s    "
      ]
     },
     {
@@ -1000,7 +1005,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "                     46%[========>           ]   1.24G  64.4MB/s    eta 22s    "
+      "                     40%[=======>            ]   1.05G  59.9MB/s    eta 29s    "
      ]
     },
     {
@@ -1008,7 +1013,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "                  v  47%[========>           ]   1.25G  65.7MB/s    eta 22s    "
+      "                  v  40%[=======>            ]   1.07G  58.4MB/s    eta 29s    "
      ]
     },
     {
@@ -1016,7 +1021,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "                 v5  48%[========>           ]   1.26G  64.8MB/s    eta 21s    "
+      "                 v5  41%[=======>            ]   1.08G  57.1MB/s    eta 28s    "
      ]
     },
     {
@@ -1024,7 +1029,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "                v5-  48%[========>           ]   1.28G  63.7MB/s    eta 21s    "
+      "                v5-  41%[=======>            ]   1.09G  56.0MB/s    eta 28s    "
      ]
     },
     {
@@ -1032,7 +1037,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "               v5-L  49%[========>           ]   1.29G  63.8MB/s    eta 21s    "
+      "               v5-L  41%[=======>            ]   1.10G  56.5MB/s    eta 28s    "
      ]
     },
     {
@@ -1040,7 +1045,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "              v5-L9  49%[========>           ]   1.30G  63.9MB/s    eta 21s    "
+      "              v5-L9  42%[=======>            ]   1.12G  56.5MB/s    eta 28s    "
      ]
     },
     {
@@ -1048,7 +1053,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "             v5-L96  50%[=========>          ]   1.32G  65.8MB/s    eta 21s    "
+      "             v5-L96  42%[=======>            ]   1.13G  56.4MB/s    eta 28s    "
      ]
     },
     {
@@ -1056,7 +1061,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "            v5-L96-  50%[=========>          ]   1.33G  65.6MB/s    eta 20s    "
+      "            v5-L96-  43%[=======>            ]   1.14G  57.3MB/s    eta 27s    "
      ]
     },
     {
@@ -1064,7 +1069,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "           v5-L96-D  50%[=========>          ]   1.34G  62.3MB/s    eta 20s    "
+      "           v5-L96-D  43%[=======>            ]   1.14G  53.9MB/s    eta 27s    "
      ]
     },
     {
@@ -1072,7 +1077,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "          v5-L96-D1  51%[=========>          ]   1.35G  61.4MB/s    eta 20s    "
+      "          v5-L96-D1  43%[=======>            ]   1.14G  51.1MB/s    eta 27s    "
      ]
     },
     {
@@ -1080,7 +1085,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "         v5-L96-D10  51%[=========>          ]   1.36G  63.9MB/s    eta 20s    "
+      "         v5-L96-D10  43%[=======>            ]   1.16G  50.7MB/s    eta 27s    "
      ]
     },
     {
@@ -1088,7 +1093,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "        v5-L96-D102  52%[=========>          ]   1.38G  65.0MB/s    eta 20s    "
+      "        v5-L96-D102  44%[=======>            ]   1.17G  51.4MB/s    eta 27s    "
      ]
     },
     {
@@ -1096,7 +1101,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "       v5-L96-D1024  52%[=========>          ]   1.39G  64.0MB/s    eta 19s    "
+      "       v5-L96-D1024  44%[=======>            ]   1.18G  52.0MB/s    eta 27s    "
      ]
     },
     {
@@ -1104,7 +1109,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "      v5-L96-D1024-  53%[=========>          ]   1.40G  63.3MB/s    eta 19s    "
+      "      v5-L96-D1024-  45%[========>           ]   1.19G  51.7MB/s    eta 27s    "
      ]
     },
     {
@@ -1112,7 +1117,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "     v5-L96-D1024-E  53%[=========>          ]   1.42G  65.0MB/s    eta 19s    "
+      "     v5-L96-D1024-E  45%[========>           ]   1.21G  51.1MB/s    eta 27s    "
      ]
     },
     {
@@ -1120,7 +1125,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "    v5-L96-D1024-E0  54%[=========>          ]   1.43G  65.2MB/s    eta 19s    "
+      "    v5-L96-D1024-E0  46%[========>           ]   1.22G  50.7MB/s    eta 27s    "
      ]
     },
     {
@@ -1128,7 +1133,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "   v5-L96-D1024-E0_  55%[==========>         ]   1.45G  66.6MB/s    eta 19s    "
+      "   v5-L96-D1024-E0_  46%[========>           ]   1.23G  51.7MB/s    eta 27s    "
      ]
     },
     {
@@ -1136,7 +1141,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "  v5-L96-D1024-E0_1  55%[==========>         ]   1.46G  65.6MB/s    eta 18s    "
+      "  v5-L96-D1024-E0_1  47%[========>           ]   1.24G  51.3MB/s    eta 26s    "
      ]
     },
     {
@@ -1144,7 +1149,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      " v5-L96-D1024-E0_1-  56%[==========>         ]   1.47G  65.3MB/s    eta 18s    "
+      " v5-L96-D1024-E0_1-  47%[========>           ]   1.25G  51.7MB/s    eta 26s    "
      ]
     },
     {
@@ -1152,7 +1157,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "v5-L96-D1024-E0_1-m  56%[==========>         ]   1.49G  64.8MB/s    eta 18s    "
+      "v5-L96-D1024-E0_1-m  48%[========>           ]   1.27G  51.4MB/s    eta 26s    "
      ]
     },
     {
@@ -1160,7 +1165,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "5-L96-D1024-E0_1-me  57%[==========>         ]   1.50G  66.9MB/s    eta 18s    "
+      "5-L96-D1024-E0_1-me  48%[========>           ]   1.28G  51.5MB/s    eta 26s    "
      ]
     },
     {
@@ -1168,7 +1173,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-L96-D1024-E0_1-mem  57%[==========>         ]   1.52G  66.7MB/s    eta 18s    "
+      "-L96-D1024-E0_1-mem  48%[========>           ]   1.29G  51.3MB/s    eta 26s    "
      ]
     },
     {
@@ -1176,7 +1181,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "L96-D1024-E0_1-mem-  58%[==========>         ]   1.53G  66.0MB/s    eta 17s    "
+      "L96-D1024-E0_1-mem-  49%[========>           ]   1.30G  50.2MB/s    eta 25s    "
      ]
     },
     {
@@ -1184,7 +1189,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "96-D1024-E0_1-mem-c  58%[==========>         ]   1.55G  68.7MB/s    eta 17s    "
+      "96-D1024-E0_1-mem-c  49%[========>           ]   1.31G  50.4MB/s    eta 25s    "
      ]
     },
     {
@@ -1192,7 +1197,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "6-D1024-E0_1-mem-ct  59%[==========>         ]   1.56G  71.8MB/s    eta 17s    "
+      "6-D1024-E0_1-mem-ct  50%[=========>          ]   1.32G  56.5MB/s    eta 25s    "
      ]
     },
     {
@@ -1200,7 +1205,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-D1024-E0_1-mem-ctx  59%[==========>         ]   1.57G  72.1MB/s    eta 17s    "
+      "-D1024-E0_1-mem-ctx  50%[=========>          ]   1.33G  57.7MB/s    eta 25s    "
      ]
     },
     {
@@ -1208,7 +1213,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "D1024-E0_1-mem-ctx-  60%[===========>        ]   1.58G  69.9MB/s    eta 17s    "
+      "D1024-E0_1-mem-ctx-  51%[=========>          ]   1.34G  57.0MB/s    eta 25s    "
      ]
     },
     {
@@ -1216,7 +1221,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "1024-E0_1-mem-ctx-2  60%[===========>        ]   1.60G  69.2MB/s    eta 16s    "
+      "1024-E0_1-mem-ctx-2  51%[=========>          ]   1.36G  56.9MB/s    eta 23s    "
      ]
     },
     {
@@ -1224,7 +1229,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "024-E0_1-mem-ctx-2k  61%[===========>        ]   1.61G  68.3MB/s    eta 16s    "
+      "024-E0_1-mem-ctx-2k  52%[=========>          ]   1.37G  57.4MB/s    eta 23s    "
      ]
     },
     {
@@ -1232,7 +1237,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "24-E0_1-mem-ctx-2k.  61%[===========>        ]   1.62G  69.5MB/s    eta 16s    "
+      "24-E0_1-mem-ctx-2k.  52%[=========>          ]   1.38G  57.0MB/s    eta 23s    "
      ]
     },
     {
@@ -1240,7 +1245,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "4-E0_1-mem-ctx-2k.p  62%[===========>        ]   1.64G  69.0MB/s    eta 16s    "
+      "4-E0_1-mem-ctx-2k.p  52%[=========>          ]   1.39G  58.1MB/s    eta 23s    "
      ]
     },
     {
@@ -1248,7 +1253,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-E0_1-mem-ctx-2k.pt  62%[===========>        ]   1.65G  68.3MB/s    eta 16s    "
+      "-E0_1-mem-ctx-2k.pt  53%[=========>          ]   1.40G  57.5MB/s    eta 23s    "
      ]
     },
     {
@@ -1256,7 +1261,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "E0_1-mem-ctx-2k.pth  63%[===========>        ]   1.67G  68.8MB/s    eta 15s    "
+      "E0_1-mem-ctx-2k.pth  53%[=========>          ]   1.41G  57.9MB/s    eta 22s    "
      ]
     },
     {
@@ -1264,7 +1269,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "0_1-mem-ctx-2k.pth   63%[===========>        ]   1.68G  68.1MB/s    eta 15s    "
+      "0_1-mem-ctx-2k.pth   54%[=========>          ]   1.43G  57.1MB/s    eta 22s    "
      ]
     },
     {
@@ -1272,7 +1277,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "_1-mem-ctx-2k.pth    64%[===========>        ]   1.70G  70.0MB/s    eta 15s    "
+      "_1-mem-ctx-2k.pth    54%[=========>          ]   1.44G  57.4MB/s    eta 22s    "
      ]
     },
     {
@@ -1280,7 +1285,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "1-mem-ctx-2k.pth     65%[============>       ]   1.71G  70.6MB/s    eta 15s    "
+      "1-mem-ctx-2k.pth     55%[==========>         ]   1.45G  57.3MB/s    eta 22s    "
      ]
     },
     {
@@ -1288,7 +1293,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-mem-ctx-2k.pth      65%[============>       ]   1.72G  68.6MB/s    eta 15s    "
+      "-mem-ctx-2k.pth      55%[==========>         ]   1.46G  57.1MB/s    eta 22s    "
      ]
     },
     {
@@ -1296,7 +1301,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "mem-ctx-2k.pth       65%[============>       ]   1.73G  67.2MB/s    eta 14s    "
+      "mem-ctx-2k.pth       55%[==========>         ]   1.47G  57.2MB/s    eta 21s    "
      ]
     },
     {
@@ -1304,7 +1309,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "em-ctx-2k.pth        66%[============>       ]   1.75G  66.8MB/s    eta 14s    "
+      "em-ctx-2k.pth        56%[==========>         ]   1.49G  57.8MB/s    eta 21s    "
      ]
     },
     {
@@ -1312,7 +1317,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "m-ctx-2k.pth         67%[============>       ]   1.76G  67.9MB/s    eta 14s    "
+      "m-ctx-2k.pth         56%[==========>         ]   1.49G  57.4MB/s    eta 21s    "
      ]
     },
     {
@@ -1320,7 +1325,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-ctx-2k.pth          67%[============>       ]   1.78G  68.4MB/s    eta 14s    "
+      "-ctx-2k.pth          57%[==========>         ]   1.51G  58.3MB/s    eta 21s    "
      ]
     },
     {
@@ -1328,7 +1333,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "ctx-2k.pth           68%[============>       ]   1.79G  68.6MB/s    eta 14s    "
+      "ctx-2k.pth           57%[==========>         ]   1.52G  57.8MB/s    eta 21s    "
      ]
     },
     {
@@ -1336,7 +1341,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "tx-2k.pth            68%[============>       ]   1.81G  69.8MB/s    eta 13s    "
+      "tx-2k.pth            58%[==========>         ]   1.53G  58.0MB/s    eta 20s    "
      ]
     },
     {
@@ -1344,7 +1349,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "x-2k.pth             69%[============>       ]   1.82G  70.1MB/s    eta 13s    "
+      "x-2k.pth             58%[==========>         ]   1.54G  57.7MB/s    eta 20s    "
      ]
     },
     {
@@ -1352,7 +1357,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-2k.pth              69%[============>       ]   1.83G  70.7MB/s    eta 13s    "
+      "-2k.pth              58%[==========>         ]   1.55G  57.0MB/s    eta 20s    "
      ]
     },
     {
@@ -1360,7 +1365,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "2k.pth               70%[=============>      ]   1.85G  70.4MB/s    eta 13s    "
+      "2k.pth               59%[==========>         ]   1.56G  57.2MB/s    eta 20s    "
      ]
     },
     {
@@ -1368,7 +1373,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "k.pth                70%[=============>      ]   1.86G  69.3MB/s    eta 13s    "
+      "k.pth                59%[==========>         ]   1.57G  56.7MB/s    eta 20s    "
      ]
     },
     {
@@ -1376,7 +1381,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      ".pth                 71%[=============>      ]   1.88G  70.1MB/s    eta 12s    "
+      ".pth                 60%[===========>        ]   1.58G  57.0MB/s    eta 19s    "
      ]
     },
     {
@@ -1384,7 +1389,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "pth                  71%[=============>      ]   1.89G  68.7MB/s    eta 12s    "
+      "pth                  60%[===========>        ]   1.59G  56.7MB/s    eta 19s    "
      ]
     },
     {
@@ -1392,7 +1397,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "th                   72%[=============>      ]   1.90G  69.4MB/s    eta 12s    "
+      "th                   61%[===========>        ]   1.61G  56.7MB/s    eta 19s    "
      ]
     },
     {
@@ -1400,7 +1405,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "h                    72%[=============>      ]   1.91G  67.4MB/s    eta 12s    "
+      "h                    61%[===========>        ]   1.62G  56.9MB/s    eta 19s    "
      ]
     },
     {
@@ -1408,7 +1413,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "                     73%[=============>      ]   1.93G  69.0MB/s    eta 12s    "
+      "                     61%[===========>        ]   1.63G  57.4MB/s    eta 19s    "
      ]
     },
     {
@@ -1416,7 +1421,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "                  v  73%[=============>      ]   1.94G  69.7MB/s    eta 11s    "
+      "                  v  62%[===========>        ]   1.64G  59.1MB/s    eta 18s    "
      ]
     },
     {
@@ -1424,7 +1429,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "                 v5  74%[=============>      ]   1.95G  68.5MB/s    eta 11s    "
+      "                 v5  63%[===========>        ]   1.66G  59.4MB/s    eta 18s    "
      ]
     },
     {
@@ -1432,7 +1437,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "                v5-  74%[=============>      ]   1.97G  69.4MB/s    eta 11s    "
+      "                v5-  63%[===========>        ]   1.67G  58.5MB/s    eta 18s    "
      ]
     },
     {
@@ -1440,7 +1445,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "               v5-L  75%[==============>     ]   1.98G  68.3MB/s    eta 11s    "
+      "               v5-L  63%[===========>        ]   1.68G  59.1MB/s    eta 18s    "
      ]
     },
     {
@@ -1448,7 +1453,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "              v5-L9  75%[==============>     ]   1.99G  67.3MB/s    eta 11s    "
+      "              v5-L9  64%[===========>        ]   1.70G  58.3MB/s    eta 18s    "
      ]
     },
     {
@@ -1456,7 +1461,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "             v5-L96  76%[==============>     ]   2.00G  65.0MB/s    eta 10s    "
+      "             v5-L96  64%[===========>        ]   1.71G  58.7MB/s    eta 17s    "
      ]
     },
     {
@@ -1464,7 +1469,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "            v5-L96-  76%[==============>     ]   2.01G  62.0MB/s    eta 10s    "
+      "            v5-L96-  65%[============>       ]   1.72G  58.3MB/s    eta 17s    "
      ]
     },
     {
@@ -1472,7 +1477,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "           v5-L96-D  76%[==============>     ]   2.02G  61.9MB/s    eta 10s    "
+      "           v5-L96-D  65%[============>       ]   1.72G  54.7MB/s    eta 17s    "
      ]
     },
     {
@@ -1480,7 +1485,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "          v5-L96-D1  77%[==============>     ]   2.03G  59.7MB/s    eta 10s    "
+      "          v5-L96-D1  65%[============>       ]   1.73G  56.3MB/s    eta 17s    "
      ]
     },
     {
@@ -1488,7 +1493,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "         v5-L96-D10  77%[==============>     ]   2.04G  59.2MB/s    eta 10s    "
+      "         v5-L96-D10  66%[============>       ]   1.75G  57.2MB/s    eta 17s    "
      ]
     },
     {
@@ -1496,7 +1501,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "        v5-L96-D102  78%[==============>     ]   2.06G  60.6MB/s    eta 9s     "
+      "        v5-L96-D102  66%[============>       ]   1.76G  56.8MB/s    eta 16s    "
      ]
     },
     {
@@ -1504,7 +1509,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "       v5-L96-D1024  78%[==============>     ]   2.07G  60.2MB/s    eta 9s     "
+      "       v5-L96-D1024  67%[============>       ]   1.77G  57.7MB/s    eta 16s    "
      ]
     },
     {
@@ -1512,7 +1517,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "      v5-L96-D1024-  79%[==============>     ]   2.09G  60.8MB/s    eta 9s     "
+      "      v5-L96-D1024-  68%[============>       ]   1.79G  59.6MB/s    eta 16s    "
      ]
     },
     {
@@ -1520,7 +1525,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "     v5-L96-D1024-E  80%[===============>    ]   2.11G  62.5MB/s    eta 9s     "
+      "     v5-L96-D1024-E  68%[============>       ]   1.80G  59.6MB/s    eta 16s    "
      ]
     },
     {
@@ -1528,7 +1533,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "    v5-L96-D1024-E0  80%[===============>    ]   2.12G  61.5MB/s    eta 9s     "
+      "    v5-L96-D1024-E0  68%[============>       ]   1.81G  59.5MB/s    eta 16s    "
      ]
     },
     {
@@ -1536,7 +1541,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "   v5-L96-D1024-E0_  81%[===============>    ]   2.13G  61.7MB/s    eta 8s     "
+      "   v5-L96-D1024-E0_  69%[============>       ]   1.83G  58.3MB/s    eta 15s    "
      ]
     },
     {
@@ -1544,7 +1549,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "  v5-L96-D1024-E0_1  81%[===============>    ]   2.15G  61.8MB/s    eta 8s     "
+      "  v5-L96-D1024-E0_1  69%[============>       ]   1.84G  58.1MB/s    eta 15s    "
      ]
     },
     {
@@ -1552,7 +1557,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      " v5-L96-D1024-E0_1-  82%[===============>    ]   2.16G  63.0MB/s    eta 8s     "
+      " v5-L96-D1024-E0_1-  70%[=============>      ]   1.85G  56.8MB/s    eta 15s    "
      ]
     },
     {
@@ -1560,7 +1565,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "v5-L96-D1024-E0_1-m  82%[===============>    ]   2.17G  62.6MB/s    eta 8s     "
+      "v5-L96-D1024-E0_1-m  70%[=============>      ]   1.86G  57.6MB/s    eta 15s    "
      ]
     },
     {
@@ -1568,7 +1573,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "5-L96-D1024-E0_1-me  83%[===============>    ]   2.19G  61.4MB/s    eta 8s     "
+      "5-L96-D1024-E0_1-me  71%[=============>      ]   1.87G  56.7MB/s    eta 15s    "
      ]
     },
     {
@@ -1576,7 +1581,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-L96-D1024-E0_1-mem  83%[===============>    ]   2.20G  63.0MB/s    eta 7s     "
+      "-L96-D1024-E0_1-mem  71%[=============>      ]   1.88G  57.1MB/s    eta 14s    "
      ]
     },
     {
@@ -1584,7 +1589,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "L96-D1024-E0_1-mem-  84%[===============>    ]   2.21G  65.9MB/s    eta 7s     "
+      "L96-D1024-E0_1-mem-  72%[=============>      ]   1.90G  60.1MB/s    eta 14s    "
      ]
     },
     {
@@ -1592,7 +1597,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "96-D1024-E0_1-mem-c  84%[===============>    ]   2.23G  69.6MB/s    eta 7s     "
+      "96-D1024-E0_1-mem-c  72%[=============>      ]   1.91G  62.7MB/s    eta 14s    "
      ]
     },
     {
@@ -1600,7 +1605,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "6-D1024-E0_1-mem-ct  85%[================>   ]   2.24G  69.5MB/s    eta 7s     "
+      "6-D1024-E0_1-mem-ct  73%[=============>      ]   1.92G  61.7MB/s    eta 14s    "
      ]
     },
     {
@@ -1608,7 +1613,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-D1024-E0_1-mem-ctx  85%[================>   ]   2.26G  70.1MB/s    eta 7s     "
+      "-D1024-E0_1-mem-ctx  73%[=============>      ]   1.93G  61.8MB/s    eta 14s    "
      ]
     },
     {
@@ -1616,7 +1621,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "D1024-E0_1-mem-ctx-  86%[================>   ]   2.28G  71.7MB/s    eta 5s     "
+      "D1024-E0_1-mem-ctx-  74%[=============>      ]   1.95G  62.7MB/s    eta 12s    "
      ]
     },
     {
@@ -1624,7 +1629,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "1024-E0_1-mem-ctx-2  86%[================>   ]   2.29G  70.2MB/s    eta 5s     "
+      "1024-E0_1-mem-ctx-2  74%[=============>      ]   1.96G  60.8MB/s    eta 12s    "
      ]
     },
     {
@@ -1632,7 +1637,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "024-E0_1-mem-ctx-2k  87%[================>   ]   2.31G  71.8MB/s    eta 5s     "
+      "024-E0_1-mem-ctx-2k  75%[==============>     ]   1.97G  60.6MB/s    eta 12s    "
      ]
     },
     {
@@ -1640,7 +1645,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "24-E0_1-mem-ctx-2k.  88%[================>   ]   2.32G  71.4MB/s    eta 5s     "
+      "24-E0_1-mem-ctx-2k.  75%[==============>     ]   1.99G  61.3MB/s    eta 12s    "
      ]
     },
     {
@@ -1648,7 +1653,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "4-E0_1-mem-ctx-2k.p  88%[================>   ]   2.33G  69.9MB/s    eta 5s     "
+      "4-E0_1-mem-ctx-2k.p  76%[==============>     ]   2.00G  61.2MB/s    eta 12s    "
      ]
     },
     {
@@ -1656,7 +1661,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-E0_1-mem-ctx-2k.pt  89%[================>   ]   2.35G  69.6MB/s    eta 4s     "
+      "-E0_1-mem-ctx-2k.pt  76%[==============>     ]   2.01G  60.7MB/s    eta 11s    "
      ]
     },
     {
@@ -1664,7 +1669,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "E0_1-mem-ctx-2k.pth  89%[================>   ]   2.36G  68.1MB/s    eta 4s     "
+      "E0_1-mem-ctx-2k.pth  76%[==============>     ]   2.02G  61.1MB/s    eta 11s    "
      ]
     },
     {
@@ -1672,7 +1677,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "0_1-mem-ctx-2k.pth   90%[=================>  ]   2.37G  69.8MB/s    eta 4s     "
+      "0_1-mem-ctx-2k.pth   77%[==============>     ]   2.04G  61.1MB/s    eta 11s    "
      ]
     },
     {
@@ -1680,7 +1685,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "_1-mem-ctx-2k.pth    90%[=================>  ]   2.39G  69.3MB/s    eta 4s     "
+      "_1-mem-ctx-2k.pth    77%[==============>     ]   2.05G  61.6MB/s    eta 11s    "
      ]
     },
     {
@@ -1688,7 +1693,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "1-mem-ctx-2k.pth     91%[=================>  ]   2.40G  70.2MB/s    eta 4s     "
+      "1-mem-ctx-2k.pth     78%[==============>     ]   2.06G  62.4MB/s    eta 11s    "
      ]
     },
     {
@@ -1696,7 +1701,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-mem-ctx-2k.pth      91%[=================>  ]   2.41G  69.5MB/s    eta 3s     "
+      "-mem-ctx-2k.pth      78%[==============>     ]   2.07G  61.2MB/s    eta 10s    "
      ]
     },
     {
@@ -1704,7 +1709,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "mem-ctx-2k.pth       92%[=================>  ]   2.43G  70.8MB/s    eta 3s     "
+      "mem-ctx-2k.pth       79%[==============>     ]   2.08G  60.8MB/s    eta 10s    "
      ]
     },
     {
@@ -1712,7 +1717,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "em-ctx-2k.pth        92%[=================>  ]   2.44G  69.1MB/s    eta 3s     "
+      "em-ctx-2k.pth        79%[==============>     ]   2.09G  60.1MB/s    eta 10s    "
      ]
     },
     {
@@ -1720,7 +1725,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "m-ctx-2k.pth         93%[=================>  ]   2.45G  69.7MB/s    eta 3s     "
+      "m-ctx-2k.pth         79%[==============>     ]   2.10G  58.8MB/s    eta 10s    "
      ]
     },
     {
@@ -1728,7 +1733,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-ctx-2k.pth          93%[=================>  ]   2.46G  69.0MB/s    eta 3s     "
+      "-ctx-2k.pth          80%[===============>    ]   2.11G  58.7MB/s    eta 10s    "
      ]
     },
     {
@@ -1736,7 +1741,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "ctx-2k.pth           94%[=================>  ]   2.48G  66.9MB/s    eta 2s     "
+      "ctx-2k.pth           80%[===============>    ]   2.13G  60.2MB/s    eta 9s     "
      ]
     },
     {
@@ -1744,7 +1749,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "tx-2k.pth            94%[=================>  ]   2.49G  67.3MB/s    eta 2s     "
+      "tx-2k.pth            81%[===============>    ]   2.14G  59.0MB/s    eta 9s     "
      ]
     },
     {
@@ -1752,7 +1757,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "x-2k.pth             95%[==================> ]   2.51G  65.8MB/s    eta 2s     "
+      "x-2k.pth             81%[===============>    ]   2.15G  58.9MB/s    eta 9s     "
      ]
     },
     {
@@ -1760,7 +1765,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "-2k.pth              95%[==================> ]   2.52G  65.1MB/s    eta 2s     "
+      "-2k.pth              82%[===============>    ]   2.16G  57.5MB/s    eta 9s     "
      ]
     },
     {
@@ -1768,7 +1773,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "2k.pth               96%[==================> ]   2.54G  67.0MB/s    eta 2s     "
+      "2k.pth               82%[===============>    ]   2.17G  56.7MB/s    eta 9s     "
      ]
     },
     {
@@ -1776,7 +1781,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "k.pth                96%[==================> ]   2.55G  67.9MB/s    eta 1s     "
+      "k.pth                82%[===============>    ]   2.18G  56.1MB/s    eta 8s     "
      ]
     },
     {
@@ -1784,7 +1789,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      ".pth                 97%[==================> ]   2.57G  67.7MB/s    eta 1s     "
+      ".pth                 83%[===============>    ]   2.19G  53.8MB/s    eta 8s     "
      ]
     },
     {
@@ -1792,7 +1797,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "pth                  98%[==================> ]   2.58G  68.0MB/s    eta 1s     "
+      "pth                  83%[===============>    ]   2.20G  52.8MB/s    eta 8s     "
      ]
     },
     {
@@ -1800,7 +1805,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "th                   98%[==================> ]   2.59G  67.7MB/s    eta 1s     "
+      "th                   84%[===============>    ]   2.21G  53.2MB/s    eta 8s     "
      ]
     },
     {
@@ -1808,7 +1813,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "h                    99%[==================> ]   2.61G  67.9MB/s    eta 1s     "
+      "h                    84%[===============>    ]   2.22G  53.8MB/s    eta 8s     "
      ]
     },
     {
@@ -1816,7 +1821,7 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "                     99%[==================> ]   2.62G  66.1MB/s    eta 0s     "
+      "                     84%[===============>    ]   2.24G  54.7MB/s    eta 7s     "
      ]
     },
     {
@@ -1824,241 +1829,434 @@
      "output_type": "stream",
      "text": [
       "\r",
-      "                  v  99%[==================> ]   2.63G  66.3MB/s    eta 0s     \r",
-      "v5-L96-D1024-E0_1-m 100%[===================>]   2.63G  66.4MB/s    in 40s     \r\n",
-      "\r\n",
-      "2023-09-01 16:08:28 (66.6 MB/s) - ‘v5-L96-D1024-E0_1-mem-ctx-2k.pth’ saved [2825976699/2825976699]\r\n",
-      "\r\n"
+      "                  v  85%[================>   ]   2.25G  55.1MB/s    eta 7s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "total 2.7G\r\n",
-      "drwxr-xr-x  2 root root   54 Sep  1 16:07 .\r\n",
-      "drwxr-xr-x 19 root root 4.0K Sep  1 16:07 ..\r\n",
-      "-rw-r--r--  1 root root 2.7G Sep  1 08:04 v5-L96-D1024-E0_1-mem-ctx-2k.pth\r\n"
+      "\r",
+      "                 v5  85%[================>   ]   2.26G  55.7MB/s    eta 7s     "
      ]
-    }
-   ],
-   "source": [
-    "# Download the model directly (stop gap till HF sync issues is resolved)\n",
-    "# !cd \"{TRAINER_DIR}\" && cd \"../model/\" && \\\n",
-    "#     wget -nc \"https://huggingface.co/rwkv-x-dev/rwkv-x-playground/resolve/main/experiment/rwkv-x-exp/v5-memory/{FILENAME_PREFIX}-mem-ctx-2k.pth\"\n",
-    "!cd \"{TRAINER_DIR}\" && cd \"../model/\" && \\\n",
-    "    wget -nc \"https://huggingface.co/rwkv-x-dev/rwkv-x-playground/resolve/main/experiment/rwkv-x-exp/v5-memory/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/model/v5-L96-D1024-E0_1-mem-ctx-2k.pth\"\n",
-    "\n",
-    "!cd \"{TRAINER_DIR}\" && cd \"../model/\" && \\\n",
-    "    ls -alh ."
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "id": "acb64e94",
-   "metadata": {
-    "papermill": {
-     "duration": 0.012052,
-     "end_time": "2023-09-01T16:08:28.522005",
-     "exception": false,
-     "start_time": "2023-09-01T16:08:28.509953",
-     "status": "completed"
     },
-    "tags": []
-   },
-   "source": [
-    "## Tune 5 : Ramping up the ctx size (4096), memory training\n",
-    "\n",
-    "- Tune 5: Mid ctx size (4096), Scaling up!"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 5,
-   "id": "2db52194",
-   "metadata": {
-    "execution": {
-     "iopub.execute_input": "2023-09-01T16:08:28.546726Z",
-     "iopub.status.busy": "2023-09-01T16:08:28.546530Z",
-     "iopub.status.idle": "2023-09-01T16:08:32.983089Z",
-     "shell.execute_reply": "2023-09-01T16:08:32.981970Z"
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "                v5-  86%[================>   ]   2.27G  54.5MB/s    eta 7s     "
+     ]
     },
-    "papermill": {
-     "duration": 4.728323,
-     "end_time": "2023-09-01T16:08:33.262000",
-     "exception": false,
-     "start_time": "2023-09-01T16:08:28.533677",
-     "status": "completed"
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "               v5-L  86%[================>   ]   2.28G  54.1MB/s    eta 7s     "
+     ]
     },
-    "tags": []
-   },
-   "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Generating word reptition dataset ##\n"
+      "\r",
+      "              v5-L9  87%[================>   ]   2.29G  53.7MB/s    eta 6s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2 max words, 100 samples - at ../dataset/word-2-count.jsonl\n"
+      "\r",
+      "             v5-L96  87%[================>   ]   2.29G  50.5MB/s    eta 6s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 5 max words, 100 samples - at ../dataset/gen-word-5-count.jsonl\n"
+      "\r",
+      "            v5-L96-  87%[================>   ]   2.31G  51.3MB/s    eta 6s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 15 max words, 100 samples - at ../dataset/gen-word-15-count.jsonl\n"
+      "\r",
+      "           v5-L96-D  88%[================>   ]   2.32G  52.2MB/s    eta 6s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 567 samples (1 token repeat) - 5 max words - at ../dataset/shuffle-word-5-count.jsonl\n"
+      "\r",
+      "          v5-L96-D1  88%[================>   ]   2.33G  52.8MB/s    eta 6s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 20 max words, 100 samples - at ../dataset/gen-word-20-count.jsonl\n"
+      "\r",
+      "         v5-L96-D10  89%[================>   ]   2.35G  54.0MB/s    eta 5s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 129 samples (1 token repeat) - 20 max words - at ../dataset/shuffle-word-20-count.jsonl\n"
+      "\r",
+      "        v5-L96-D102  89%[================>   ]   2.36G  55.3MB/s    eta 5s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 10 max words, 100 samples - at ../dataset/gen-word-10-count.jsonl\n"
+      "\r",
+      "       v5-L96-D1024  90%[=================>  ]   2.37G  56.6MB/s    eta 5s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 88 samples (1 token repeat) - 30 max words - at ../dataset/shuffle-word-30-count.jsonl\n"
+      "\r",
+      "      v5-L96-D1024-  90%[=================>  ]   2.38G  56.9MB/s    eta 5s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 35 max words, 100 samples - at ../dataset/gen-word-35-count.jsonl\n"
+      "\r",
+      "     v5-L96-D1024-E  91%[=================>  ]   2.40G  56.8MB/s    eta 5s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 55 max words, 100 samples - at ../dataset/gen-word-55-count.jsonl\n"
+      "\r",
+      "    v5-L96-D1024-E0  91%[=================>  ]   2.41G  56.3MB/s    eta 4s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 25 max words, 100 samples - at ../dataset/gen-word-25-count.jsonl\n"
+      "\r",
+      "   v5-L96-D1024-E0_  92%[=================>  ]   2.42G  56.2MB/s    eta 4s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 30 max words, 100 samples - at ../dataset/gen-word-30-count.jsonl\n"
+      "\r",
+      "  v5-L96-D1024-E0_1  92%[=================>  ]   2.43G  56.9MB/s    eta 4s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 258 samples (1 token repeat) - 10 max words - at ../dataset/shuffle-word-10-count.jsonl\n"
+      "\r",
+      " v5-L96-D1024-E0_1-  92%[=================>  ]   2.45G  57.2MB/s    eta 4s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 60 max words, 100 samples - at ../dataset/gen-word-60-count.jsonl\n"
+      "\r",
+      "v5-L96-D1024-E0_1-m  93%[=================>  ]   2.46G  57.3MB/s    eta 4s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 33 samples (1 token repeat) - 80 max words - at ../dataset/shuffle-word-80-count.jsonl\n"
+      "\r",
+      "5-L96-D1024-E0_1-me  93%[=================>  ]   2.47G  57.2MB/s    eta 3s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 175 samples (1 token repeat) - 15 max words - at ../dataset/shuffle-word-15-count.jsonl\n"
+      "\r",
+      "-L96-D1024-E0_1-mem  94%[=================>  ]   2.48G  60.3MB/s    eta 3s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 31 samples (1 token repeat) - 85 max words - at ../dataset/shuffle-word-85-count.jsonl\n"
+      "\r",
+      "L96-D1024-E0_1-mem-  94%[=================>  ]   2.49G  60.6MB/s    eta 3s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 41 samples (1 token repeat) - 65 max words - at ../dataset/shuffle-word-65-count.jsonl\n"
+      "\r",
+      "96-D1024-E0_1-mem-c  95%[==================> ]   2.50G  59.5MB/s    eta 3s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 28 samples (1 token repeat) - 95 max words - at ../dataset/shuffle-word-95-count.jsonl\n"
+      "\r",
+      "6-D1024-E0_1-mem-ct  95%[==================> ]   2.51G  58.9MB/s    eta 3s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 49 samples (1 token repeat) - 55 max words - at ../dataset/shuffle-word-55-count.jsonl\n"
+      "\r",
+      "-D1024-E0_1-mem-ctx  95%[==================> ]   2.52G  58.6MB/s    eta 2s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 50 max words, 100 samples - at ../dataset/gen-word-50-count.jsonl\n"
+      "\r",
+      "D1024-E0_1-mem-ctx-  96%[==================> ]   2.54G  59.4MB/s    eta 2s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 26 samples (1 token repeat) - 100 max words - at ../dataset/shuffle-word-100-count.jsonl\n"
+      "\r",
+      "1024-E0_1-mem-ctx-2  96%[==================> ]   2.55G  59.0MB/s    eta 2s     "
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 65 max words, 100 samples - at ../dataset/gen-word-65-count.jsonl\n"
+      "\r",
+      "024-E0_1-mem-ctx-2k  97%[==================> ]   2.56G  59.2MB/s    eta 2s     "
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "24-E0_1-mem-ctx-2k.  97%[==================> ]   2.58G  59.4MB/s    eta 2s     "
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "4-E0_1-mem-ctx-2k.p  98%[==================> ]   2.58G  58.0MB/s    eta 1s     "
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "-E0_1-mem-ctx-2k.pt  98%[==================> ]   2.60G  58.1MB/s    eta 1s     "
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "E0_1-mem-ctx-2k.pth  99%[==================> ]   2.61G  57.4MB/s    eta 1s     "
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "0_1-mem-ctx-2k.pth   99%[==================> ]   2.62G  58.0MB/s    eta 1s     "
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\r",
+      "v5-L96-D1024-E0_1-m 100%[===================>]   2.63G  58.8MB/s    in 47s     \r\n",
+      "\r\n",
+      "2023-09-01 14:30:45 (56.8 MB/s) - ‘v5-L96-D1024-E0_1-mem-ctx-2k.pth’ saved [2825976699/2825976699]\r\n",
+      "\r\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "total 2.7G\r\n",
+      "drwxr-xr-x  2 root root   54 Sep  1 14:29 .\r\n",
+      "drwxr-xr-x 19 root root 4.0K Sep  1 14:29 ..\r\n",
+      "-rw-r--r--  1 root root 2.7G Sep  1 08:04 v5-L96-D1024-E0_1-mem-ctx-2k.pth\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "# Download the model directly (stop gap till HF sync issues is resolved)\n",
+    "# !cd \"{TRAINER_DIR}\" && cd \"../model/\" && \\\n",
+    "#     wget -nc \"https://huggingface.co/rwkv-x-dev/rwkv-x-playground/resolve/main/experiment/rwkv-x-exp/v5-memory/{FILENAME_PREFIX}-mem-ctx-2k.pth\"\n",
+    "!cd \"{TRAINER_DIR}\" && cd \"../model/\" && \\\n",
+    "    wget -nc \"https://huggingface.co/rwkv-x-dev/rwkv-x-playground/resolve/main/experiment/rwkv-x-exp/v5-memory/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/model/v5-L96-D1024-E0_1-mem-ctx-2k.pth\"\n",
+    "\n",
+    "!cd \"{TRAINER_DIR}\" && cd \"../model/\" && \\\n",
+    "    ls -alh ."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "7c75b2d4",
+   "metadata": {
+    "papermill": {
+     "duration": 0.01273,
+     "end_time": "2023-09-01T14:30:45.548016",
+     "exception": false,
+     "start_time": "2023-09-01T14:30:45.535286",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "source": [
+    "## Tune 5 : Ramping up the ctx size (4096), memory training\n",
+    "\n",
+    "- Tune 5: Mid ctx size (4096), Scaling up!"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "910befc3",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-09-01T14:30:45.575326Z",
+     "iopub.status.busy": "2023-09-01T14:30:45.575138Z",
+     "iopub.status.idle": "2023-09-01T14:30:50.041525Z",
+     "shell.execute_reply": "2023-09-01T14:30:50.040567Z"
+    },
+    "papermill": {
+     "duration": 4.844384,
+     "end_time": "2023-09-01T14:30:50.405173",
+     "exception": false,
+     "start_time": "2023-09-01T14:30:45.560789",
+     "status": "completed"
+    },
+    "tags": []
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "## Generating word reptition dataset ##\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Generated JSONL file with - 2 max words, 100 samples - at ../dataset/word-2-count.jsonl\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Generated JSONL file with - 20 max words, 100 samples - at ../dataset/gen-word-20-count.jsonl\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Generated JSONL file with - 5 max words, 100 samples - at ../dataset/gen-word-5-count.jsonl\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Generated a single JSONL file with 108 samples (1 token repeat) - 25 max words - at ../dataset/shuffle-word-25-count.jsonl\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Generated a single JSONL file with 85 samples (1 token repeat) - 30 max words - at ../dataset/shuffle-word-30-count.jsonl\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Generated a single JSONL file with 127 samples (1 token repeat) - 20 max words - at ../dataset/shuffle-word-20-count.jsonl\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Generated a single JSONL file with 37 samples (1 token repeat) - 70 max words - at ../dataset/shuffle-word-70-count.jsonl\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Generated a single JSONL file with 66 samples (1 token repeat) - 40 max words - at ../dataset/shuffle-word-40-count.jsonl\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Generated JSONL file with - 10 max words, 100 samples - at ../dataset/gen-word-10-count.jsonl\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Generated a single JSONL file with 40 samples (1 token repeat) - 65 max words - at ../dataset/shuffle-word-65-count.jsonl\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Generated JSONL file with - 25 max words, 100 samples - at ../dataset/gen-word-25-count.jsonl\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Generated JSONL file with - 35 max words, 100 samples - at ../dataset/gen-word-35-count.jsonl\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Generated a single JSONL file with 179 samples (1 token repeat) - 15 max words - at ../dataset/shuffle-word-15-count.jsonl\n"
      ]
     },
     {
@@ -2072,21 +2270,21 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 13 samples (1 token repeat) - 180 max words - at ../dataset/shuffle-word-180-count.jsonl\n"
+      "Generated a single JSONL file with 262 samples (1 token repeat) - 10 max words - at ../dataset/shuffle-word-10-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 65 samples (1 token repeat) - 40 max words - at ../dataset/shuffle-word-40-count.jsonl\n"
+      "Generated JSONL file with - 40 max words, 100 samples - at ../dataset/gen-word-40-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 31 samples (1 token repeat) - 90 max words - at ../dataset/shuffle-word-90-count.jsonl\n"
+      "Generated JSONL file with - 50 max words, 100 samples - at ../dataset/gen-word-50-count.jsonl\n"
      ]
     },
     {
@@ -2100,574 +2298,574 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 18 samples (1 token repeat) - 125 max words - at ../dataset/shuffle-word-125-count.jsonl\n"
+      "Generated JSONL file with - 65 max words, 100 samples - at ../dataset/gen-word-65-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 47 samples (1 token repeat) - 60 max words - at ../dataset/shuffle-word-60-count.jsonl\n"
+      "Generated JSONL file with - 60 max words, 100 samples - at ../dataset/gen-word-60-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (1 token repeat) - 110 max words - at ../dataset/shuffle-word-110-count.jsonl\n"
+      "Generated JSONL file with - 70 max words, 100 samples - at ../dataset/gen-word-70-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 70 max words, 100 samples - at ../dataset/gen-word-70-count.jsonl\n"
+      "Generated JSONL file with - 55 max words, 100 samples - at ../dataset/gen-word-55-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 95 max words, 100 samples - at ../dataset/gen-word-95-count.jsonl\n"
+      "Generated a single JSONL file with 58 samples (1 token repeat) - 45 max words - at ../dataset/shuffle-word-45-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 40 max words, 100 samples - at ../dataset/gen-word-40-count.jsonl\n"
+      "Generated a single JSONL file with 34 samples (1 token repeat) - 75 max words - at ../dataset/shuffle-word-75-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 100 max words, 100 samples - at ../dataset/gen-word-100-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (1 token repeat) - 110 max words - at ../dataset/shuffle-word-110-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 19 samples (1 token repeat) - 115 max words - at ../dataset/shuffle-word-115-count.jsonl\n"
+      "Generated a single JSONL file with 52 samples (1 token repeat) - 50 max words - at ../dataset/shuffle-word-50-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 110 max words, 100 samples - at ../dataset/gen-word-110-count.jsonl\n"
+      "Generated JSONL file with - 30 max words, 100 samples - at ../dataset/gen-word-30-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 59 samples (1 token repeat) - 45 max words - at ../dataset/shuffle-word-45-count.jsonl\n"
+      "Generated a single JSONL file with 14 samples (1 token repeat) - 185 max words - at ../dataset/shuffle-word-185-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 16 samples (1 token repeat) - 140 max words - at ../dataset/shuffle-word-140-count.jsonl\n"
+      "Generated JSONL file with - 120 max words, 100 samples - at ../dataset/gen-word-120-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 80 max words, 100 samples - at ../dataset/gen-word-80-count.jsonl\n"
+      "Generated a single JSONL file with 18 samples (1 token repeat) - 130 max words - at ../dataset/shuffle-word-130-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 16 samples (1 token repeat) - 150 max words - at ../dataset/shuffle-word-150-count.jsonl\n"
+      "Generated a single JSONL file with 18 samples (1 token repeat) - 120 max words - at ../dataset/shuffle-word-120-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 75 max words, 100 samples - at ../dataset/gen-word-75-count.jsonl\n"
+      "Generated a single JSONL file with 15 samples (1 token repeat) - 155 max words - at ../dataset/shuffle-word-155-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 90 max words, 100 samples - at ../dataset/gen-word-90-count.jsonl\n"
+      "Generated JSONL file with - 110 max words, 100 samples - at ../dataset/gen-word-110-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 76 samples (1 token repeat) - 35 max words - at ../dataset/shuffle-word-35-count.jsonl\n"
+      "Generated a single JSONL file with 9 samples (1 token repeat) - 240 max words - at ../dataset/shuffle-word-240-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 53 samples (1 token repeat) - 50 max words - at ../dataset/shuffle-word-50-count.jsonl\n"
+      "Generated a single JSONL file with 47 samples (1 token repeat) - 55 max words - at ../dataset/shuffle-word-55-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 108 samples (1 token repeat) - 25 max words - at ../dataset/shuffle-word-25-count.jsonl\n"
+      "Generated JSONL file with - 15 max words, 100 samples - at ../dataset/gen-word-15-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 17 samples (1 token repeat) - 135 max words - at ../dataset/shuffle-word-135-count.jsonl\n"
+      "Generated JSONL file with - 95 max words, 100 samples - at ../dataset/gen-word-95-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 120 max words, 100 samples - at ../dataset/gen-word-120-count.jsonl\n"
+      "Generated a single JSONL file with 32 samples (1 token repeat) - 80 max words - at ../dataset/shuffle-word-80-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 36 samples (1 token repeat) - 70 max words - at ../dataset/shuffle-word-70-count.jsonl\n"
+      "Generated a single JSONL file with 74 samples (1 token repeat) - 35 max words - at ../dataset/shuffle-word-35-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 36 samples (1 token repeat) - 75 max words - at ../dataset/shuffle-word-75-count.jsonl\n"
+      "Generated a single JSONL file with 544 samples (1 token repeat) - 5 max words - at ../dataset/shuffle-word-5-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 10 samples (1 token repeat) - 240 max words - at ../dataset/shuffle-word-240-count.jsonl\n"
+      "Generated a single JSONL file with 44 samples (1 token repeat) - 60 max words - at ../dataset/shuffle-word-60-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 14 samples (1 token repeat) - 170 max words - at ../dataset/shuffle-word-170-count.jsonl\n"
+      "Generated JSONL file with - 100 max words, 100 samples - at ../dataset/gen-word-100-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 15 samples (1 token repeat) - 190 max words - at ../dataset/shuffle-word-190-count.jsonl\n"
+      "Generated JSONL file with - 125 max words, 100 samples - at ../dataset/gen-word-125-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 15 samples (1 token repeat) - 160 max words - at ../dataset/shuffle-word-160-count.jsonl\n"
+      "Generated JSONL file with - 140 max words, 100 samples - at ../dataset/gen-word-140-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 130 max words, 100 samples - at ../dataset/gen-word-130-count.jsonl\n"
+      "Generated JSONL file with - 135 max words, 100 samples - at ../dataset/gen-word-135-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 105 max words, 100 samples - at ../dataset/gen-word-105-count.jsonl\n"
+      "Generated a single JSONL file with 10 samples (1 token repeat) - 230 max words - at ../dataset/shuffle-word-230-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 115 max words, 100 samples - at ../dataset/gen-word-115-count.jsonl\n"
+      "Generated JSONL file with - 105 max words, 100 samples - at ../dataset/gen-word-105-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 10 samples (1 token repeat) - 225 max words - at ../dataset/shuffle-word-225-count.jsonl\n"
+      "Generated a single JSONL file with 27 samples (1 token repeat) - 100 max words - at ../dataset/shuffle-word-100-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 175 max words, 100 samples - at ../dataset/gen-word-175-count.jsonl\n"
+      "Generated a single JSONL file with 31 samples (1 token repeat) - 85 max words - at ../dataset/shuffle-word-85-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 10 samples (1 token repeat) - 215 max words - at ../dataset/shuffle-word-215-count.jsonl\n"
+      "Generated JSONL file with - 130 max words, 100 samples - at ../dataset/gen-word-130-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 11 samples (1 token repeat) - 210 max words - at ../dataset/shuffle-word-210-count.jsonl\n"
+      "Generated JSONL file with - 85 max words, 100 samples - at ../dataset/gen-word-85-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 14 samples (1 token repeat) - 165 max words - at ../dataset/shuffle-word-165-count.jsonl\n"
+      "Generated a single JSONL file with 8 samples (1 token repeat) - 295 max words - at ../dataset/shuffle-word-295-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 18 samples (1 token repeat) - 130 max words - at ../dataset/shuffle-word-130-count.jsonl\n"
+      "Generated JSONL file with - 75 max words, 100 samples - at ../dataset/gen-word-75-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 15 samples (1 token repeat) - 155 max words - at ../dataset/shuffle-word-155-count.jsonl\n"
+      "Generated a single JSONL file with 19 samples (1 token repeat) - 115 max words - at ../dataset/shuffle-word-115-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 18 samples (1 token repeat) - 120 max words - at ../dataset/shuffle-word-120-count.jsonl\n"
+      "Generated a single JSONL file with 29 samples (1 token repeat) - 95 max words - at ../dataset/shuffle-word-95-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 340 max words - at ../dataset/shuffle-word-340-count.jsonl\n"
+      "Generated a single JSONL file with 31 samples (1 token repeat) - 90 max words - at ../dataset/shuffle-word-90-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 215 max words, 100 samples - at ../dataset/gen-word-215-count.jsonl\n"
+      "Generated JSONL file with - 115 max words, 100 samples - at ../dataset/gen-word-115-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 190 max words, 100 samples - at ../dataset/gen-word-190-count.jsonl\n"
+      "Generated JSONL file with - 145 max words, 100 samples - at ../dataset/gen-word-145-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 14 samples (1 token repeat) - 175 max words - at ../dataset/shuffle-word-175-count.jsonl\n"
+      "Generated a single JSONL file with 14 samples (1 token repeat) - 190 max words - at ../dataset/shuffle-word-190-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 10 samples (1 token repeat) - 300 max words - at ../dataset/shuffle-word-300-count.jsonl\n"
+      "Generated JSONL file with - 180 max words, 100 samples - at ../dataset/gen-word-180-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 140 max words, 100 samples - at ../dataset/gen-word-140-count.jsonl\n"
+      "Generated a single JSONL file with 14 samples (1 token repeat) - 170 max words - at ../dataset/shuffle-word-170-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 135 max words, 100 samples - at ../dataset/gen-word-135-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 405 max words - at ../dataset/shuffle-word-405-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 125 max words, 100 samples - at ../dataset/gen-word-125-count.jsonl\n"
+      "Generated a single JSONL file with 16 samples (1 token repeat) - 145 max words - at ../dataset/shuffle-word-145-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 15 samples (1 token repeat) - 145 max words - at ../dataset/shuffle-word-145-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 335 max words - at ../dataset/shuffle-word-335-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 85 max words, 100 samples - at ../dataset/gen-word-85-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 385 max words - at ../dataset/shuffle-word-385-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 145 max words, 100 samples - at ../dataset/gen-word-145-count.jsonl\n"
+      "Generated a single JSONL file with 11 samples (1 token repeat) - 210 max words - at ../dataset/shuffle-word-210-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 160 max words, 100 samples - at ../dataset/gen-word-160-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 395 max words - at ../dataset/shuffle-word-395-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 275 max words, 100 samples - at ../dataset/gen-word-275-count.jsonl\n"
+      "Generated a single JSONL file with 9 samples (1 token repeat) - 260 max words - at ../dataset/shuffle-word-260-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 200 max words, 100 samples - at ../dataset/gen-word-200-count.jsonl\n"
+      "Generated JSONL file with - 220 max words, 100 samples - at ../dataset/gen-word-220-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 165 max words, 100 samples - at ../dataset/gen-word-165-count.jsonl\n"
+      "Generated a single JSONL file with 10 samples (1 token repeat) - 225 max words - at ../dataset/shuffle-word-225-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 155 max words, 100 samples - at ../dataset/gen-word-155-count.jsonl\n"
+      "Generated a single JSONL file with 18 samples (1 token repeat) - 125 max words - at ../dataset/shuffle-word-125-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 185 max words, 100 samples - at ../dataset/gen-word-185-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 400 max words - at ../dataset/shuffle-word-400-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 430 max words, 100 samples - at ../dataset/gen-word-430-count.jsonl\n"
+      "Generated a single JSONL file with 14 samples (1 token repeat) - 165 max words - at ../dataset/shuffle-word-165-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 315 max words, 100 samples - at ../dataset/gen-word-315-count.jsonl\n"
+      "Generated JSONL file with - 300 max words, 100 samples - at ../dataset/gen-word-300-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 6 samples (1 token repeat) - 455 max words - at ../dataset/shuffle-word-455-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 345 max words - at ../dataset/shuffle-word-345-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 170 max words, 100 samples - at ../dataset/gen-word-170-count.jsonl\n"
+      "Generated JSONL file with - 470 max words, 100 samples - at ../dataset/gen-word-470-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 9 samples (1 token repeat) - 285 max words - at ../dataset/shuffle-word-285-count.jsonl\n"
+      "Generated a single JSONL file with 10 samples (1 token repeat) - 275 max words - at ../dataset/shuffle-word-275-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 9 samples (1 token repeat) - 295 max words - at ../dataset/shuffle-word-295-count.jsonl\n"
+      "Generated JSONL file with - 175 max words, 100 samples - at ../dataset/gen-word-175-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 265 max words, 100 samples - at ../dataset/gen-word-265-count.jsonl\n"
+      "Generated JSONL file with - 395 max words, 100 samples - at ../dataset/gen-word-395-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 290 max words, 100 samples - at ../dataset/gen-word-290-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 450 max words - at ../dataset/shuffle-word-450-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 9 samples (1 token repeat) - 270 max words - at ../dataset/shuffle-word-270-count.jsonl\n"
+      "Generated a single JSONL file with 14 samples (1 token repeat) - 175 max words - at ../dataset/shuffle-word-175-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 400 max words - at ../dataset/shuffle-word-400-count.jsonl\n"
+      "Generated a single JSONL file with 14 samples (1 token repeat) - 180 max words - at ../dataset/shuffle-word-180-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 6 samples (1 token repeat) - 460 max words - at ../dataset/shuffle-word-460-count.jsonl\n"
+      "Generated JSONL file with - 235 max words, 100 samples - at ../dataset/gen-word-235-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 260 max words, 100 samples - at ../dataset/gen-word-260-count.jsonl\n"
+      "Generated JSONL file with - 405 max words, 100 samples - at ../dataset/gen-word-405-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 305 max words, 100 samples - at ../dataset/gen-word-305-count.jsonl\n"
+      "Generated JSONL file with - 295 max words, 100 samples - at ../dataset/gen-word-295-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 325 max words, 100 samples - at ../dataset/gen-word-325-count.jsonl\n"
+      "Generated JSONL file with - 90 max words, 100 samples - at ../dataset/gen-word-90-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 390 max words, 100 samples - at ../dataset/gen-word-390-count.jsonl\n"
+      "Generated JSONL file with - 200 max words, 100 samples - at ../dataset/gen-word-200-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 99 samples (20 token repeat) - 570 max words - at ../dataset/shuffle-word-570-count.jsonl\n"
+      "Generated JSONL file with - 170 max words, 100 samples - at ../dataset/gen-word-170-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 225 max words, 100 samples - at ../dataset/gen-word-225-count.jsonl\n"
+      "Generated a single JSONL file with 15 samples (1 token repeat) - 160 max words - at ../dataset/shuffle-word-160-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 450 max words, 100 samples - at ../dataset/gen-word-450-count.jsonl\n"
+      "Generated JSONL file with - 435 max words, 100 samples - at ../dataset/gen-word-435-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 13 samples (1 token repeat) - 185 max words - at ../dataset/shuffle-word-185-count.jsonl\n"
+      "Generated JSONL file with - 400 max words, 100 samples - at ../dataset/gen-word-400-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 150 max words, 100 samples - at ../dataset/gen-word-150-count.jsonl\n"
+      "Generated JSONL file with - 275 max words, 100 samples - at ../dataset/gen-word-275-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 180 max words, 100 samples - at ../dataset/gen-word-180-count.jsonl\n"
+      "Generated a single JSONL file with 10 samples (1 token repeat) - 220 max words - at ../dataset/shuffle-word-220-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 360 max words - at ../dataset/shuffle-word-360-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 440 max words - at ../dataset/shuffle-word-440-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 10 samples (1 token repeat) - 235 max words - at ../dataset/shuffle-word-235-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 445 max words - at ../dataset/shuffle-word-445-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 350 max words - at ../dataset/shuffle-word-350-count.jsonl\n"
+      "Generated a single JSONL file with 9 samples (1 token repeat) - 255 max words - at ../dataset/shuffle-word-255-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 9 samples (1 token repeat) - 260 max words - at ../dataset/shuffle-word-260-count.jsonl\n"
+      "Generated JSONL file with - 80 max words, 100 samples - at ../dataset/gen-word-80-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 345 max words - at ../dataset/shuffle-word-345-count.jsonl\n"
+      "Generated a single JSONL file with 99 samples (20 token repeat) - 530 max words - at ../dataset/shuffle-word-530-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 365 max words - at ../dataset/shuffle-word-365-count.jsonl\n"
+      "Generated JSONL file with - 485 max words, 100 samples - at ../dataset/gen-word-485-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 205 max words, 100 samples - at ../dataset/gen-word-205-count.jsonl\n"
+      "Generated JSONL file with - 355 max words, 100 samples - at ../dataset/gen-word-355-count.jsonl\n"
      ]
     },
     {
@@ -2681,7084 +2879,7084 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 455 max words, 100 samples - at ../dataset/gen-word-455-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 420 max words - at ../dataset/shuffle-word-420-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 9 samples (1 token repeat) - 250 max words - at ../dataset/shuffle-word-250-count.jsonl\n"
+      "Generated JSONL file with - 155 max words, 100 samples - at ../dataset/gen-word-155-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 295 max words, 100 samples - at ../dataset/gen-word-295-count.jsonl\n"
+      "Generated JSONL file with - 245 max words, 100 samples - at ../dataset/gen-word-245-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 220 max words, 100 samples - at ../dataset/gen-word-220-count.jsonl\n"
+      "Generated a single JSONL file with 10 samples (1 token repeat) - 265 max words - at ../dataset/shuffle-word-265-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 195 max words, 100 samples - at ../dataset/gen-word-195-count.jsonl\n"
+      "Generated JSONL file with - 315 max words, 100 samples - at ../dataset/gen-word-315-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 510 max words, 200 samples - at ../dataset/gen-word-510-count.jsonl\n"
+      "Generated JSONL file with - 160 max words, 100 samples - at ../dataset/gen-word-160-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 650 max words - at ../dataset/shuffle-word-650-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 435 max words - at ../dataset/shuffle-word-435-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 5 samples (1 token repeat) - 495 max words - at ../dataset/shuffle-word-495-count.jsonl\n"
+      "Generated a single JSONL file with 5 samples (1 token repeat) - 475 max words - at ../dataset/shuffle-word-475-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 10 samples (1 token repeat) - 255 max words - at ../dataset/shuffle-word-255-count.jsonl\n"
+      "Generated a single JSONL file with 10 samples (1 token repeat) - 250 max words - at ../dataset/shuffle-word-250-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 6 samples (1 token repeat) - 430 max words - at ../dataset/shuffle-word-430-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 410 max words - at ../dataset/shuffle-word-410-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 500 max words, 100 samples - at ../dataset/gen-word-500-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 470 max words - at ../dataset/shuffle-word-470-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 270 max words, 100 samples - at ../dataset/gen-word-270-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 380 max words - at ../dataset/shuffle-word-380-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 315 max words - at ../dataset/shuffle-word-315-count.jsonl\n"
+      "Generated JSONL file with - 425 max words, 100 samples - at ../dataset/gen-word-425-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 625 max words - at ../dataset/shuffle-word-625-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 330 max words - at ../dataset/shuffle-word-330-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 470 max words, 100 samples - at ../dataset/gen-word-470-count.jsonl\n"
+      "Generated JSONL file with - 225 max words, 100 samples - at ../dataset/gen-word-225-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 575 max words, 200 samples - at ../dataset/gen-word-575-count.jsonl\n"
+      "Generated a single JSONL file with 13 samples (1 token repeat) - 200 max words - at ../dataset/shuffle-word-200-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 52 samples (20 token repeat) - 1205 max words - at ../dataset/shuffle-word-1205-count.jsonl\n"
+      "Generated a single JSONL file with 99 samples (20 token repeat) - 565 max words - at ../dataset/shuffle-word-565-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 65 samples (20 token repeat) - 810 max words - at ../dataset/shuffle-word-810-count.jsonl\n"
+      "Generated JSONL file with - 430 max words, 100 samples - at ../dataset/gen-word-430-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 370 max words - at ../dataset/shuffle-word-370-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 415 max words - at ../dataset/shuffle-word-415-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 475 max words, 100 samples - at ../dataset/gen-word-475-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 350 max words - at ../dataset/shuffle-word-350-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 985 max words - at ../dataset/shuffle-word-985-count.jsonl\n"
+      "Generated a single JSONL file with 81 samples (20 token repeat) - 615 max words - at ../dataset/shuffle-word-615-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 100 samples (20 token repeat) - 600 max words - at ../dataset/shuffle-word-600-count.jsonl\n"
+      "Generated a single JSONL file with 67 samples (20 token repeat) - 870 max words - at ../dataset/shuffle-word-870-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 330 max words - at ../dataset/shuffle-word-330-count.jsonl\n"
+      "Generated JSONL file with - 570 max words, 200 samples - at ../dataset/gen-word-570-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 335 max words - at ../dataset/shuffle-word-335-count.jsonl\n"
+      "Generated a single JSONL file with 65 samples (20 token repeat) - 865 max words - at ../dataset/shuffle-word-865-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 310 max words, 100 samples - at ../dataset/gen-word-310-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 430 max words - at ../dataset/shuffle-word-430-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 620 max words, 200 samples - at ../dataset/gen-word-620-count.jsonl\n"
+      "Generated JSONL file with - 455 max words, 100 samples - at ../dataset/gen-word-455-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 230 max words, 100 samples - at ../dataset/gen-word-230-count.jsonl\n"
+      "Generated a single JSONL file with 65 samples (20 token repeat) - 850 max words - at ../dataset/shuffle-word-850-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 13 samples (1 token repeat) - 200 max words - at ../dataset/shuffle-word-200-count.jsonl\n"
+      "Generated a single JSONL file with 79 samples (20 token repeat) - 795 max words - at ../dataset/shuffle-word-795-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 83 samples (20 token repeat) - 610 max words - at ../dataset/shuffle-word-610-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 945 max words - at ../dataset/shuffle-word-945-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1075 max words - at ../dataset/shuffle-word-1075-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1045 max words - at ../dataset/shuffle-word-1045-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 63 samples (20 token repeat) - 825 max words - at ../dataset/shuffle-word-825-count.jsonl\n"
+      "Generated JSONL file with - 615 max words, 200 samples - at ../dataset/gen-word-615-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 300 max words, 100 samples - at ../dataset/gen-word-300-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 695 max words - at ../dataset/shuffle-word-695-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 42 samples (20 token repeat) - 1355 max words - at ../dataset/shuffle-word-1355-count.jsonl\n"
+      "Generated JSONL file with - 450 max words, 100 samples - at ../dataset/gen-word-450-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1445 max words - at ../dataset/shuffle-word-1445-count.jsonl\n"
+      "Generated a single JSONL file with 99 samples (20 token repeat) - 590 max words - at ../dataset/shuffle-word-590-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 580 max words, 200 samples - at ../dataset/gen-word-580-count.jsonl\n"
+      "Generated a single JSONL file with 100 samples (20 token repeat) - 515 max words - at ../dataset/shuffle-word-515-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 6 samples (1 token repeat) - 490 max words - at ../dataset/shuffle-word-490-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 425 max words - at ../dataset/shuffle-word-425-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 635 max words - at ../dataset/shuffle-word-635-count.jsonl\n"
+      "Generated JSONL file with - 650 max words, 200 samples - at ../dataset/gen-word-650-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 81 samples (20 token repeat) - 620 max words - at ../dataset/shuffle-word-620-count.jsonl\n"
+      "Generated JSONL file with - 575 max words, 200 samples - at ../dataset/gen-word-575-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 515 max words, 200 samples - at ../dataset/gen-word-515-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 360 max words - at ../dataset/shuffle-word-360-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 330 max words, 100 samples - at ../dataset/gen-word-330-count.jsonl\n"
+      "Generated a single JSONL file with 49 samples (20 token repeat) - 1245 max words - at ../dataset/shuffle-word-1245-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 210 max words, 100 samples - at ../dataset/gen-word-210-count.jsonl\n"
+      "Generated a single JSONL file with 81 samples (20 token repeat) - 605 max words - at ../dataset/shuffle-word-605-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 6 samples (1 token repeat) - 480 max words - at ../dataset/shuffle-word-480-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 310 max words - at ../dataset/shuffle-word-310-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1165 max words - at ../dataset/shuffle-word-1165-count.jsonl\n"
+      "Generated JSONL file with - 185 max words, 100 samples - at ../dataset/gen-word-185-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1020 max words - at ../dataset/shuffle-word-1020-count.jsonl\n"
+      "Generated JSONL file with - 365 max words, 100 samples - at ../dataset/gen-word-365-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 62 samples (20 token repeat) - 865 max words - at ../dataset/shuffle-word-865-count.jsonl\n"
+      "Generated JSONL file with - 770 max words, 200 samples - at ../dataset/gen-word-770-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 305 max words - at ../dataset/shuffle-word-305-count.jsonl\n"
+      "Generated JSONL file with - 325 max words, 100 samples - at ../dataset/gen-word-325-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 50 samples (20 token repeat) - 1265 max words - at ../dataset/shuffle-word-1265-count.jsonl\n"
+      "Generated JSONL file with - 330 max words, 100 samples - at ../dataset/gen-word-330-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 345 max words, 100 samples - at ../dataset/gen-word-345-count.jsonl\n"
+      "Generated JSONL file with - 280 max words, 100 samples - at ../dataset/gen-word-280-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1060 max words - at ../dataset/shuffle-word-1060-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1345 max words - at ../dataset/shuffle-word-1345-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 10 samples (1 token repeat) - 230 max words - at ../dataset/shuffle-word-230-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1370 max words - at ../dataset/shuffle-word-1370-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 320 max words - at ../dataset/shuffle-word-320-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1440 max words - at ../dataset/shuffle-word-1440-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 385 max words, 100 samples - at ../dataset/gen-word-385-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 975 max words - at ../dataset/shuffle-word-975-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 47 samples (20 token repeat) - 1290 max words - at ../dataset/shuffle-word-1290-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1510 max words - at ../dataset/shuffle-word-1510-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 10 samples (1 token repeat) - 265 max words - at ../dataset/shuffle-word-265-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1340 max words - at ../dataset/shuffle-word-1340-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1135 max words - at ../dataset/shuffle-word-1135-count.jsonl\n"
+      "Generated a single JSONL file with 51 samples (20 token repeat) - 1290 max words - at ../dataset/shuffle-word-1290-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 6 samples (1 token repeat) - 405 max words - at ../dataset/shuffle-word-405-count.jsonl\n"
+      "Generated a single JSONL file with 41 samples (20 token repeat) - 1335 max words - at ../dataset/shuffle-word-1335-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 955 max words - at ../dataset/shuffle-word-955-count.jsonl\n"
+      "Generated JSONL file with - 495 max words, 100 samples - at ../dataset/gen-word-495-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1040 max words - at ../dataset/shuffle-word-1040-count.jsonl\n"
+      "Generated a single JSONL file with 63 samples (20 token repeat) - 860 max words - at ../dataset/shuffle-word-860-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 310 max words - at ../dataset/shuffle-word-310-count.jsonl\n"
+      "Generated JSONL file with - 815 max words, 200 samples - at ../dataset/gen-word-815-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 250 max words, 100 samples - at ../dataset/gen-word-250-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1030 max words - at ../dataset/shuffle-word-1030-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 65 samples (20 token repeat) - 900 max words - at ../dataset/shuffle-word-900-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 365 max words - at ../dataset/shuffle-word-365-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1125 max words - at ../dataset/shuffle-word-1125-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 675 max words - at ../dataset/shuffle-word-675-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 490 max words, 100 samples - at ../dataset/gen-word-490-count.jsonl\n"
+      "Generated a single JSONL file with 62 samples (20 token repeat) - 875 max words - at ../dataset/shuffle-word-875-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 53 samples (20 token repeat) - 1220 max words - at ../dataset/shuffle-word-1220-count.jsonl\n"
+      "Generated JSONL file with - 205 max words, 100 samples - at ../dataset/gen-word-205-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1130 max words - at ../dataset/shuffle-word-1130-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1420 max words - at ../dataset/shuffle-word-1420-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 6 samples (1 token repeat) - 415 max words - at ../dataset/shuffle-word-415-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 725 max words - at ../dataset/shuffle-word-725-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 99 samples (20 token repeat) - 565 max words - at ../dataset/shuffle-word-565-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1355 max words - at ../dataset/shuffle-word-1355-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 81 samples (20 token repeat) - 675 max words - at ../dataset/shuffle-word-675-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1475 max words - at ../dataset/shuffle-word-1475-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 63 samples (20 token repeat) - 845 max words - at ../dataset/shuffle-word-845-count.jsonl\n"
+      "Generated a single JSONL file with 43 samples (20 token repeat) - 1390 max words - at ../dataset/shuffle-word-1390-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 82 samples (20 token repeat) - 630 max words - at ../dataset/shuffle-word-630-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1155 max words - at ../dataset/shuffle-word-1155-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 42 samples (20 token repeat) - 1385 max words - at ../dataset/shuffle-word-1385-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1085 max words - at ../dataset/shuffle-word-1085-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 58 samples (20 token repeat) - 1120 max words - at ../dataset/shuffle-word-1120-count.jsonl\n"
+      "Generated JSONL file with - 360 max words, 100 samples - at ../dataset/gen-word-360-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 715 max words - at ../dataset/shuffle-word-715-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1650 max words - at ../dataset/shuffle-word-1650-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 360 max words, 100 samples - at ../dataset/gen-word-360-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1400 max words - at ../dataset/shuffle-word-1400-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1200 max words - at ../dataset/shuffle-word-1200-count.jsonl\n"
+      "Generated a single JSONL file with 64 samples (20 token repeat) - 890 max words - at ../dataset/shuffle-word-890-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1015 max words - at ../dataset/shuffle-word-1015-count.jsonl\n"
+      "Generated a single JSONL file with 100 samples (20 token repeat) - 510 max words - at ../dataset/shuffle-word-510-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 10 samples (1 token repeat) - 220 max words - at ../dataset/shuffle-word-220-count.jsonl\n"
+      "Generated JSONL file with - 965 max words, 200 samples - at ../dataset/gen-word-965-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 48 samples (20 token repeat) - 1240 max words - at ../dataset/shuffle-word-1240-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1500 max words - at ../dataset/shuffle-word-1500-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 6 samples (1 token repeat) - 500 max words - at ../dataset/shuffle-word-500-count.jsonl\n"
+      "Generated a single JSONL file with 100 samples (20 token repeat) - 520 max words - at ../dataset/shuffle-word-520-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 8 samples (1 token repeat) - 390 max words - at ../dataset/shuffle-word-390-count.jsonl\n"
+      "Generated JSONL file with - 955 max words, 200 samples - at ../dataset/gen-word-955-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1390 max words - at ../dataset/shuffle-word-1390-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1590 max words - at ../dataset/shuffle-word-1590-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 100 samples (20 token repeat) - 575 max words - at ../dataset/shuffle-word-575-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1190 max words - at ../dataset/shuffle-word-1190-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 79 samples (20 token repeat) - 725 max words - at ../dataset/shuffle-word-725-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1175 max words - at ../dataset/shuffle-word-1175-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1105 max words - at ../dataset/shuffle-word-1105-count.jsonl\n"
+      "Generated a single JSONL file with 79 samples (20 token repeat) - 760 max words - at ../dataset/shuffle-word-760-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 380 max words, 100 samples - at ../dataset/gen-word-380-count.jsonl\n"
+      "Generated a single JSONL file with 9 samples (1 token repeat) - 285 max words - at ../dataset/shuffle-word-285-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 100 samples (20 token repeat) - 520 max words - at ../dataset/shuffle-word-520-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1870 max words - at ../dataset/shuffle-word-1870-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 615 max words, 200 samples - at ../dataset/gen-word-615-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 315 max words - at ../dataset/shuffle-word-315-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 320 max words, 100 samples - at ../dataset/gen-word-320-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1125 max words - at ../dataset/shuffle-word-1125-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1165 max words, 200 samples - at ../dataset/gen-word-1165-count.jsonl\n"
+      "Generated JSONL file with - 620 max words, 200 samples - at ../dataset/gen-word-620-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 61 samples (20 token repeat) - 805 max words - at ../dataset/shuffle-word-805-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1040 max words - at ../dataset/shuffle-word-1040-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 355 max words - at ../dataset/shuffle-word-355-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1835 max words - at ../dataset/shuffle-word-1835-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1520 max words - at ../dataset/shuffle-word-1520-count.jsonl\n"
+      "Generated a single JSONL file with 53 samples (20 token repeat) - 1265 max words - at ../dataset/shuffle-word-1265-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 255 max words, 100 samples - at ../dataset/gen-word-255-count.jsonl\n"
+      "Generated JSONL file with - 465 max words, 100 samples - at ../dataset/gen-word-465-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 100 samples (20 token repeat) - 555 max words - at ../dataset/shuffle-word-555-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1595 max words - at ../dataset/shuffle-word-1595-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 11 samples (1 token repeat) - 205 max words - at ../dataset/shuffle-word-205-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 920 max words - at ../dataset/shuffle-word-920-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1000 max words - at ../dataset/shuffle-word-1000-count.jsonl\n"
+      "Generated JSONL file with - 1120 max words, 200 samples - at ../dataset/gen-word-1120-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 665 max words - at ../dataset/shuffle-word-665-count.jsonl\n"
+      "Generated a single JSONL file with 49 samples (20 token repeat) - 1295 max words - at ../dataset/shuffle-word-1295-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1035 max words - at ../dataset/shuffle-word-1035-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1430 max words - at ../dataset/shuffle-word-1430-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 100 samples (20 token repeat) - 550 max words - at ../dataset/shuffle-word-550-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 775 max words - at ../dataset/shuffle-word-775-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 43 samples (20 token repeat) - 1330 max words - at ../dataset/shuffle-word-1330-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1635 max words - at ../dataset/shuffle-word-1635-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 960 max words - at ../dataset/shuffle-word-960-count.jsonl\n"
+      "Generated JSONL file with - 255 max words, 100 samples - at ../dataset/gen-word-255-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 660 max words - at ../dataset/shuffle-word-660-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1520 max words - at ../dataset/shuffle-word-1520-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 235 max words, 100 samples - at ../dataset/gen-word-235-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1680 max words - at ../dataset/shuffle-word-1680-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 750 max words - at ../dataset/shuffle-word-750-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1665 max words - at ../dataset/shuffle-word-1665-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 780 max words - at ../dataset/shuffle-word-780-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 305 max words - at ../dataset/shuffle-word-305-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 100 samples (20 token repeat) - 510 max words - at ../dataset/shuffle-word-510-count.jsonl\n"
+      "Generated JSONL file with - 195 max words, 100 samples - at ../dataset/gen-word-195-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 6 samples (1 token repeat) - 485 max words - at ../dataset/shuffle-word-485-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 955 max words - at ../dataset/shuffle-word-955-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 61 samples (20 token repeat) - 835 max words - at ../dataset/shuffle-word-835-count.jsonl\n"
+      "Generated JSONL file with - 845 max words, 200 samples - at ../dataset/gen-word-845-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1660 max words - at ../dataset/shuffle-word-1660-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1775 max words - at ../dataset/shuffle-word-1775-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 59 samples (20 token repeat) - 1145 max words - at ../dataset/shuffle-word-1145-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1070 max words - at ../dataset/shuffle-word-1070-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 5 samples (1 token repeat) - 435 max words - at ../dataset/shuffle-word-435-count.jsonl\n"
+      "Generated a single JSONL file with 83 samples (20 token repeat) - 640 max words - at ../dataset/shuffle-word-640-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 81 samples (20 token repeat) - 645 max words - at ../dataset/shuffle-word-645-count.jsonl\n"
+      "Generated JSONL file with - 940 max words, 200 samples - at ../dataset/gen-word-940-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 47 samples (20 token repeat) - 1225 max words - at ../dataset/shuffle-word-1225-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1025 max words - at ../dataset/shuffle-word-1025-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 640 max words - at ../dataset/shuffle-word-640-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1790 max words - at ../dataset/shuffle-word-1790-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 79 samples (20 token repeat) - 765 max words - at ../dataset/shuffle-word-765-count.jsonl\n"
+      "Generated JSONL file with - 500 max words, 100 samples - at ../dataset/gen-word-500-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 660 max words, 200 samples - at ../dataset/gen-word-660-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 905 max words - at ../dataset/shuffle-word-905-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1055 max words - at ../dataset/shuffle-word-1055-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1465 max words - at ../dataset/shuffle-word-1465-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1010 max words - at ../dataset/shuffle-word-1010-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1660 max words - at ../dataset/shuffle-word-1660-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 465 max words, 100 samples - at ../dataset/gen-word-465-count.jsonl\n"
+      "Generated a single JSONL file with 62 samples (20 token repeat) - 805 max words - at ../dataset/shuffle-word-805-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1160 max words - at ../dataset/shuffle-word-1160-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 985 max words - at ../dataset/shuffle-word-985-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 335 max words, 100 samples - at ../dataset/gen-word-335-count.jsonl\n"
+      "Generated JSONL file with - 1105 max words, 200 samples - at ../dataset/gen-word-1105-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 365 max words, 100 samples - at ../dataset/gen-word-365-count.jsonl\n"
+      "Generated a single JSONL file with 49 samples (20 token repeat) - 1230 max words - at ../dataset/shuffle-word-1230-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 905 max words - at ../dataset/shuffle-word-905-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1350 max words - at ../dataset/shuffle-word-1350-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 755 max words - at ../dataset/shuffle-word-755-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1545 max words - at ../dataset/shuffle-word-1545-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 9 samples (1 token repeat) - 245 max words - at ../dataset/shuffle-word-245-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1585 max words - at ../dataset/shuffle-word-1585-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 480 max words, 100 samples - at ../dataset/gen-word-480-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1490 max words - at ../dataset/shuffle-word-1490-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 395 max words - at ../dataset/shuffle-word-395-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1535 max words - at ../dataset/shuffle-word-1535-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 400 max words, 100 samples - at ../dataset/gen-word-400-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1640 max words - at ../dataset/shuffle-word-1640-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 585 max words, 200 samples - at ../dataset/gen-word-585-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1805 max words - at ../dataset/shuffle-word-1805-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 47 samples (20 token repeat) - 1255 max words - at ../dataset/shuffle-word-1255-count.jsonl\n"
+      "Generated JSONL file with - 370 max words, 100 samples - at ../dataset/gen-word-370-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 740 max words, 200 samples - at ../dataset/gen-word-740-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1605 max words - at ../dataset/shuffle-word-1605-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 325 max words - at ../dataset/shuffle-word-325-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 960 max words - at ../dataset/shuffle-word-960-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1725 max words - at ../dataset/shuffle-word-1725-count.jsonl\n"
+      "Generated a single JSONL file with 78 samples (20 token repeat) - 780 max words - at ../dataset/shuffle-word-780-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 63 samples (20 token repeat) - 855 max words - at ../dataset/shuffle-word-855-count.jsonl\n"
+      "Generated a single JSONL file with 100 samples (20 token repeat) - 555 max words - at ../dataset/shuffle-word-555-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 100 samples (20 token repeat) - 530 max words - at ../dataset/shuffle-word-530-count.jsonl\n"
+      "Generated JSONL file with - 490 max words, 100 samples - at ../dataset/gen-word-490-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1090 max words - at ../dataset/shuffle-word-1090-count.jsonl\n"
+      "Generated JSONL file with - 930 max words, 200 samples - at ../dataset/gen-word-930-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 6 samples (1 token repeat) - 440 max words - at ../dataset/shuffle-word-440-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1620 max words - at ../dataset/shuffle-word-1620-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1365 max words - at ../dataset/shuffle-word-1365-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1410 max words - at ../dataset/shuffle-word-1410-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 995 max words - at ../dataset/shuffle-word-995-count.jsonl\n"
+      "Generated JSONL file with - 215 max words, 100 samples - at ../dataset/gen-word-215-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 420 max words, 100 samples - at ../dataset/gen-word-420-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1160 max words - at ../dataset/shuffle-word-1160-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1005 max words - at ../dataset/shuffle-word-1005-count.jsonl\n"
+      "Generated JSONL file with - 230 max words, 100 samples - at ../dataset/gen-word-230-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 5 samples (1 token repeat) - 450 max words - at ../dataset/shuffle-word-450-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1615 max words - at ../dataset/shuffle-word-1615-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1810 max words - at ../dataset/shuffle-word-1810-count.jsonl\n"
+      "Generated JSONL file with - 705 max words, 200 samples - at ../dataset/gen-word-705-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 720 max words, 200 samples - at ../dataset/gen-word-720-count.jsonl\n"
+      "Generated a single JSONL file with 51 samples (20 token repeat) - 1300 max words - at ../dataset/shuffle-word-1300-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 975 max words, 200 samples - at ../dataset/gen-word-975-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1825 max words - at ../dataset/shuffle-word-1825-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1155 max words - at ../dataset/shuffle-word-1155-count.jsonl\n"
+      "Generated JSONL file with - 625 max words, 200 samples - at ../dataset/gen-word-625-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 13 samples (1 token repeat) - 195 max words - at ../dataset/shuffle-word-195-count.jsonl\n"
+      "Generated a single JSONL file with 52 samples (20 token repeat) - 1270 max words - at ../dataset/shuffle-word-1270-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 41 samples (20 token repeat) - 1395 max words - at ../dataset/shuffle-word-1395-count.jsonl\n"
+      "Generated a single JSONL file with 55 samples (20 token repeat) - 1210 max words - at ../dataset/shuffle-word-1210-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 42 samples (20 token repeat) - 1340 max words - at ../dataset/shuffle-word-1340-count.jsonl\n"
+      "Generated JSONL file with - 265 max words, 100 samples - at ../dataset/gen-word-265-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 240 max words, 100 samples - at ../dataset/gen-word-240-count.jsonl\n"
+      "Generated JSONL file with - 920 max words, 200 samples - at ../dataset/gen-word-920-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 100 samples (20 token repeat) - 595 max words - at ../dataset/shuffle-word-595-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1470 max words - at ../dataset/shuffle-word-1470-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 655 max words, 200 samples - at ../dataset/gen-word-655-count.jsonl\n"
+      "Generated a single JSONL file with 81 samples (20 token repeat) - 630 max words - at ../dataset/shuffle-word-630-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 610 max words, 200 samples - at ../dataset/gen-word-610-count.jsonl\n"
+      "Generated a single JSONL file with 50 samples (20 token repeat) - 1235 max words - at ../dataset/shuffle-word-1235-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1345 max words, 200 samples - at ../dataset/gen-word-1345-count.jsonl\n"
+      "Generated JSONL file with - 665 max words, 200 samples - at ../dataset/gen-word-665-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 760 max words, 200 samples - at ../dataset/gen-word-760-count.jsonl\n"
+      "Generated a single JSONL file with 100 samples (20 token repeat) - 545 max words - at ../dataset/shuffle-word-545-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1405 max words - at ../dataset/shuffle-word-1405-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 745 max words - at ../dataset/shuffle-word-745-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 785 max words, 200 samples - at ../dataset/gen-word-785-count.jsonl\n"
+      "Generated JSONL file with - 410 max words, 100 samples - at ../dataset/gen-word-410-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 665 max words, 200 samples - at ../dataset/gen-word-665-count.jsonl\n"
+      "Generated a single JSONL file with 100 samples (20 token repeat) - 595 max words - at ../dataset/shuffle-word-595-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1775 max words - at ../dataset/shuffle-word-1775-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 735 max words - at ../dataset/shuffle-word-735-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1550 max words - at ../dataset/shuffle-word-1550-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 390 max words - at ../dataset/shuffle-word-390-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1440 max words - at ../dataset/shuffle-word-1440-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 485 max words - at ../dataset/shuffle-word-485-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1590 max words - at ../dataset/shuffle-word-1590-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 455 max words - at ../dataset/shuffle-word-455-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 79 samples (20 token repeat) - 730 max words - at ../dataset/shuffle-word-730-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1950 max words - at ../dataset/shuffle-word-1950-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 930 max words - at ../dataset/shuffle-word-930-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1080 max words - at ../dataset/shuffle-word-1080-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 700 max words, 200 samples - at ../dataset/gen-word-700-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1375 max words - at ../dataset/shuffle-word-1375-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1455 max words - at ../dataset/shuffle-word-1455-count.jsonl\n"
+      "Generated a single JSONL file with 41 samples (20 token repeat) - 1310 max words - at ../dataset/shuffle-word-1310-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1600 max words - at ../dataset/shuffle-word-1600-count.jsonl\n"
+      "Generated JSONL file with - 440 max words, 100 samples - at ../dataset/gen-word-440-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 935 max words - at ../dataset/shuffle-word-935-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1840 max words - at ../dataset/shuffle-word-1840-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2075 max words - at ../dataset/shuffle-word-2075-count.jsonl\n"
+      "Generated JSONL file with - 1185 max words, 200 samples - at ../dataset/gen-word-1185-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 50 samples (20 token repeat) - 1275 max words - at ../dataset/shuffle-word-1275-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 370 max words - at ../dataset/shuffle-word-370-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1640 max words - at ../dataset/shuffle-word-1640-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1915 max words - at ../dataset/shuffle-word-1915-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 350 max words, 100 samples - at ../dataset/gen-word-350-count.jsonl\n"
+      "Generated a single JSONL file with 16 samples (1 token repeat) - 135 max words - at ../dataset/shuffle-word-135-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 520 max words, 200 samples - at ../dataset/gen-word-520-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1675 max words - at ../dataset/shuffle-word-1675-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1680 max words - at ../dataset/shuffle-word-1680-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2010 max words - at ../dataset/shuffle-word-2010-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1525 max words - at ../dataset/shuffle-word-1525-count.jsonl\n"
+      "Generated JSONL file with - 895 max words, 200 samples - at ../dataset/gen-word-895-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 625 max words, 200 samples - at ../dataset/gen-word-625-count.jsonl\n"
+      "Generated a single JSONL file with 59 samples (20 token repeat) - 1170 max words - at ../dataset/shuffle-word-1170-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 100 samples (20 token repeat) - 525 max words - at ../dataset/shuffle-word-525-count.jsonl\n"
+      "Generated JSONL file with - 345 max words, 100 samples - at ../dataset/gen-word-345-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1240 max words, 200 samples - at ../dataset/gen-word-1240-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2035 max words - at ../dataset/shuffle-word-2035-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 675 max words, 200 samples - at ../dataset/gen-word-675-count.jsonl\n"
+      "Generated JSONL file with - 1330 max words, 200 samples - at ../dataset/gen-word-1330-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1580 max words - at ../dataset/shuffle-word-1580-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1010 max words - at ../dataset/shuffle-word-1010-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1560 max words - at ../dataset/shuffle-word-1560-count.jsonl\n"
+      "Generated JSONL file with - 480 max words, 100 samples - at ../dataset/gen-word-480-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 630 max words, 200 samples - at ../dataset/gen-word-630-count.jsonl\n"
+      "Generated JSONL file with - 585 max words, 200 samples - at ../dataset/gen-word-585-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1325 max words, 200 samples - at ../dataset/gen-word-1325-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 740 max words - at ../dataset/shuffle-word-740-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 79 samples (20 token repeat) - 760 max words - at ../dataset/shuffle-word-760-count.jsonl\n"
+      "Generated JSONL file with - 1460 max words, 200 samples - at ../dataset/gen-word-1460-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 63 samples (20 token repeat) - 840 max words - at ../dataset/shuffle-word-840-count.jsonl\n"
+      "Generated JSONL file with - 190 max words, 100 samples - at ../dataset/gen-word-190-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 445 max words, 100 samples - at ../dataset/gen-word-445-count.jsonl\n"
+      "Generated a single JSONL file with 11 samples (1 token repeat) - 205 max words - at ../dataset/shuffle-word-205-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 730 max words, 200 samples - at ../dataset/gen-word-730-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 465 max words - at ../dataset/shuffle-word-465-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 99 samples (20 token repeat) - 540 max words - at ../dataset/shuffle-word-540-count.jsonl\n"
+      "Generated a single JSONL file with 49 samples (20 token repeat) - 1275 max words - at ../dataset/shuffle-word-1275-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1690 max words - at ../dataset/shuffle-word-1690-count.jsonl\n"
+      "Generated JSONL file with - 260 max words, 100 samples - at ../dataset/gen-word-260-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2135 max words - at ../dataset/shuffle-word-2135-count.jsonl\n"
+      "Generated a single JSONL file with 8 samples (1 token repeat) - 325 max words - at ../dataset/shuffle-word-325-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 690 max words, 200 samples - at ../dataset/gen-word-690-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1795 max words - at ../dataset/shuffle-word-1795-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1695 max words - at ../dataset/shuffle-word-1695-count.jsonl\n"
+      "Generated JSONL file with - 1575 max words, 200 samples - at ../dataset/gen-word-1575-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 780 max words, 200 samples - at ../dataset/gen-word-780-count.jsonl\n"
+      "Generated a single JSONL file with 37 samples (20 token repeat) - 2430 max words - at ../dataset/shuffle-word-2430-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 640 max words, 200 samples - at ../dataset/gen-word-640-count.jsonl\n"
+      "Generated JSONL file with - 240 max words, 100 samples - at ../dataset/gen-word-240-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 485 max words, 100 samples - at ../dataset/gen-word-485-count.jsonl\n"
+      "Generated a single JSONL file with 99 samples (20 token repeat) - 585 max words - at ../dataset/shuffle-word-585-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1005 max words, 200 samples - at ../dataset/gen-word-1005-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1765 max words - at ../dataset/shuffle-word-1765-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 705 max words - at ../dataset/shuffle-word-705-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1865 max words - at ../dataset/shuffle-word-1865-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2015 max words - at ../dataset/shuffle-word-2015-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1560 max words - at ../dataset/shuffle-word-1560-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2060 max words - at ../dataset/shuffle-word-2060-count.jsonl\n"
+      "Generated JSONL file with - 740 max words, 200 samples - at ../dataset/gen-word-740-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 370 max words, 100 samples - at ../dataset/gen-word-370-count.jsonl\n"
+      "Generated a single JSONL file with 49 samples (20 token repeat) - 1250 max words - at ../dataset/shuffle-word-1250-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1210 max words, 200 samples - at ../dataset/gen-word-1210-count.jsonl\n"
+      "Generated a single JSONL file with 100 samples (20 token repeat) - 550 max words - at ../dataset/shuffle-word-550-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 245 max words, 100 samples - at ../dataset/gen-word-245-count.jsonl\n"
+      "Generated JSONL file with - 1525 max words, 200 samples - at ../dataset/gen-word-1525-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 825 max words, 200 samples - at ../dataset/gen-word-825-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1035 max words - at ../dataset/shuffle-word-1035-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1025 max words - at ../dataset/shuffle-word-1025-count.jsonl\n"
+      "Generated a single JSONL file with 79 samples (20 token repeat) - 790 max words - at ../dataset/shuffle-word-790-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1625 max words - at ../dataset/shuffle-word-1625-count.jsonl\n"
+      "Generated JSONL file with - 970 max words, 200 samples - at ../dataset/gen-word-970-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1320 max words - at ../dataset/shuffle-word-1320-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2050 max words - at ../dataset/shuffle-word-2050-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 505 max words, 200 samples - at ../dataset/gen-word-505-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2000 max words - at ../dataset/shuffle-word-2000-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1555 max words - at ../dataset/shuffle-word-1555-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1920 max words - at ../dataset/shuffle-word-1920-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1980 max words - at ../dataset/shuffle-word-1980-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2125 max words - at ../dataset/shuffle-word-2125-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 800 max words, 200 samples - at ../dataset/gen-word-800-count.jsonl\n"
+      "Generated JSONL file with - 915 max words, 200 samples - at ../dataset/gen-word-915-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1075 max words, 200 samples - at ../dataset/gen-word-1075-count.jsonl\n"
+      "Generated JSONL file with - 520 max words, 200 samples - at ../dataset/gen-word-520-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1190 max words - at ../dataset/shuffle-word-1190-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1735 max words - at ../dataset/shuffle-word-1735-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 31 samples (20 token repeat) - 2565 max words - at ../dataset/shuffle-word-2565-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1405 max words - at ../dataset/shuffle-word-1405-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1085 max words, 200 samples - at ../dataset/gen-word-1085-count.jsonl\n"
+      "Generated a single JSONL file with 52 samples (20 token repeat) - 1255 max words - at ../dataset/shuffle-word-1255-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 99 samples (20 token repeat) - 545 max words - at ../dataset/shuffle-word-545-count.jsonl\n"
+      "Generated JSONL file with - 760 max words, 200 samples - at ../dataset/gen-word-760-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 63 samples (20 token repeat) - 820 max words - at ../dataset/shuffle-word-820-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2070 max words - at ../dataset/shuffle-word-2070-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 385 max words - at ../dataset/shuffle-word-385-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1815 max words - at ../dataset/shuffle-word-1815-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1070 max words, 200 samples - at ../dataset/gen-word-1070-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1655 max words - at ../dataset/shuffle-word-1655-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1395 max words, 200 samples - at ../dataset/gen-word-1395-count.jsonl\n"
+      "Generated JSONL file with - 1000 max words, 200 samples - at ../dataset/gen-word-1000-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1715 max words, 200 samples - at ../dataset/gen-word-1715-count.jsonl\n"
+      "Generated JSONL file with - 210 max words, 100 samples - at ../dataset/gen-word-210-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 41 samples (20 token repeat) - 1345 max words - at ../dataset/shuffle-word-1345-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2025 max words - at ../dataset/shuffle-word-2025-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1930 max words - at ../dataset/shuffle-word-1930-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1975 max words - at ../dataset/shuffle-word-1975-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1895 max words - at ../dataset/shuffle-word-1895-count.jsonl\n"
+      "Generated JSONL file with - 1850 max words, 200 samples - at ../dataset/gen-word-1850-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 41 samples (20 token repeat) - 1375 max words - at ../dataset/shuffle-word-1375-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 480 max words - at ../dataset/shuffle-word-480-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 100 samples (20 token repeat) - 590 max words - at ../dataset/shuffle-word-590-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1565 max words - at ../dataset/shuffle-word-1565-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 6 samples (1 token repeat) - 445 max words - at ../dataset/shuffle-word-445-count.jsonl\n"
+      "Generated JSONL file with - 1840 max words, 200 samples - at ../dataset/gen-word-1840-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2240 max words - at ../dataset/shuffle-word-2240-count.jsonl\n"
+      "Generated JSONL file with - 350 max words, 100 samples - at ../dataset/gen-word-350-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1315 max words - at ../dataset/shuffle-word-1315-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1985 max words - at ../dataset/shuffle-word-1985-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 745 max words - at ../dataset/shuffle-word-745-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1130 max words - at ../dataset/shuffle-word-1130-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1720 max words - at ../dataset/shuffle-word-1720-count.jsonl\n"
+      "Generated JSONL file with - 540 max words, 200 samples - at ../dataset/gen-word-540-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 100 samples (20 token repeat) - 535 max words - at ../dataset/shuffle-word-535-count.jsonl\n"
+      "Generated a single JSONL file with 64 samples (20 token repeat) - 845 max words - at ../dataset/shuffle-word-845-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 39 samples (20 token repeat) - 2215 max words - at ../dataset/shuffle-word-2215-count.jsonl\n"
+      "Generated JSONL file with - 870 max words, 200 samples - at ../dataset/gen-word-870-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1340 max words, 200 samples - at ../dataset/gen-word-1340-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1575 max words - at ../dataset/shuffle-word-1575-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 51 samples (20 token repeat) - 1270 max words - at ../dataset/shuffle-word-1270-count.jsonl\n"
+      "Generated a single JSONL file with 64 samples (20 token repeat) - 835 max words - at ../dataset/shuffle-word-835-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 805 max words, 200 samples - at ../dataset/gen-word-805-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1580 max words - at ../dataset/shuffle-word-1580-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 910 max words - at ../dataset/shuffle-word-910-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3070 max words - at ../dataset/shuffle-word-3070-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1430 max words - at ../dataset/shuffle-word-1430-count.jsonl\n"
+      "Generated JSONL file with - 445 max words, 100 samples - at ../dataset/gen-word-445-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1535 max words - at ../dataset/shuffle-word-1535-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1075 max words - at ../dataset/shuffle-word-1075-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 615 max words - at ../dataset/shuffle-word-615-count.jsonl\n"
+      "Generated JSONL file with - 1370 max words, 200 samples - at ../dataset/gen-word-1370-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1405 max words, 200 samples - at ../dataset/gen-word-1405-count.jsonl\n"
+      "Generated a single JSONL file with 21 samples (20 token repeat) - 2745 max words - at ../dataset/shuffle-word-2745-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 605 max words, 200 samples - at ../dataset/gen-word-605-count.jsonl\n"
+      "Generated JSONL file with - 655 max words, 200 samples - at ../dataset/gen-word-655-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1140 max words, 200 samples - at ../dataset/gen-word-1140-count.jsonl\n"
+      "Generated JSONL file with - 1170 max words, 200 samples - at ../dataset/gen-word-1170-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1530 max words, 200 samples - at ../dataset/gen-word-1530-count.jsonl\n"
+      "Generated JSONL file with - 1320 max words, 200 samples - at ../dataset/gen-word-1320-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1120 max words, 200 samples - at ../dataset/gen-word-1120-count.jsonl\n"
+      "Generated a single JSONL file with 10 samples (1 token repeat) - 270 max words - at ../dataset/shuffle-word-270-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2285 max words - at ../dataset/shuffle-word-2285-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 925 max words - at ../dataset/shuffle-word-925-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 770 max words - at ../dataset/shuffle-word-770-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 910 max words - at ../dataset/shuffle-word-910-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1565 max words - at ../dataset/shuffle-word-1565-count.jsonl\n"
+      "Generated JSONL file with - 1115 max words, 200 samples - at ../dataset/gen-word-1115-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 425 max words, 100 samples - at ../dataset/gen-word-425-count.jsonl\n"
+      "Generated JSONL file with - 1130 max words, 200 samples - at ../dataset/gen-word-1130-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 38 samples (20 token repeat) - 2495 max words - at ../dataset/shuffle-word-2495-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1365 max words - at ../dataset/shuffle-word-1365-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 355 max words, 100 samples - at ../dataset/gen-word-355-count.jsonl\n"
+      "Generated JSONL file with - 1345 max words, 200 samples - at ../dataset/gen-word-1345-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 680 max words, 200 samples - at ../dataset/gen-word-680-count.jsonl\n"
+      "Generated JSONL file with - 1150 max words, 200 samples - at ../dataset/gen-word-1150-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1645 max words, 200 samples - at ../dataset/gen-word-1645-count.jsonl\n"
+      "Generated JSONL file with - 1290 max words, 200 samples - at ../dataset/gen-word-1290-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 600 max words, 200 samples - at ../dataset/gen-word-600-count.jsonl\n"
+      "Generated JSONL file with - 1035 max words, 200 samples - at ../dataset/gen-word-1035-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2260 max words - at ../dataset/shuffle-word-2260-count.jsonl\n"
+      "Generated a single JSONL file with 9 samples (1 token repeat) - 290 max words - at ../dataset/shuffle-word-290-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 51 samples (20 token repeat) - 1235 max words - at ../dataset/shuffle-word-1235-count.jsonl\n"
+      "Generated JSONL file with - 1360 max words, 200 samples - at ../dataset/gen-word-1360-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2210 max words - at ../dataset/shuffle-word-2210-count.jsonl\n"
+      "Generated JSONL file with - 1275 max words, 200 samples - at ../dataset/gen-word-1275-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 940 max words - at ../dataset/shuffle-word-940-count.jsonl\n"
+      "Generated a single JSONL file with 24 samples (20 token repeat) - 2635 max words - at ../dataset/shuffle-word-2635-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 525 max words, 200 samples - at ../dataset/gen-word-525-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1745 max words - at ../dataset/shuffle-word-1745-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 440 max words, 100 samples - at ../dataset/gen-word-440-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1785 max words - at ../dataset/shuffle-word-1785-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 835 max words, 200 samples - at ../dataset/gen-word-835-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1060 max words - at ../dataset/shuffle-word-1060-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 845 max words, 200 samples - at ../dataset/gen-word-845-count.jsonl\n"
+      "Generated a single JSONL file with 100 samples (20 token repeat) - 600 max words - at ../dataset/shuffle-word-600-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 9 samples (1 token repeat) - 275 max words - at ../dataset/shuffle-word-275-count.jsonl\n"
+      "Generated JSONL file with - 1880 max words, 200 samples - at ../dataset/gen-word-1880-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2320 max words, 200 samples - at ../dataset/gen-word-2320-count.jsonl\n"
+      "Generated a single JSONL file with 82 samples (20 token repeat) - 660 max words - at ../dataset/shuffle-word-660-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1460 max words - at ../dataset/shuffle-word-1460-count.jsonl\n"
+      "Generated a single JSONL file with 82 samples (20 token repeat) - 650 max words - at ../dataset/shuffle-word-650-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 540 max words, 200 samples - at ../dataset/gen-word-540-count.jsonl\n"
+      "Generated a single JSONL file with 37 samples (20 token repeat) - 2490 max words - at ../dataset/shuffle-word-2490-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 100 samples (20 token repeat) - 505 max words - at ../dataset/shuffle-word-505-count.jsonl\n"
+      "Generated JSONL file with - 990 max words, 200 samples - at ../dataset/gen-word-990-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 81 samples (20 token repeat) - 670 max words - at ../dataset/shuffle-word-670-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1900 max words - at ../dataset/shuffle-word-1900-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1710 max words - at ../dataset/shuffle-word-1710-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1800 max words - at ../dataset/shuffle-word-1800-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1350 max words, 200 samples - at ../dataset/gen-word-1350-count.jsonl\n"
+      "Generated JSONL file with - 1305 max words, 200 samples - at ../dataset/gen-word-1305-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2950 max words - at ../dataset/shuffle-word-2950-count.jsonl\n"
+      "Generated JSONL file with - 1145 max words, 200 samples - at ../dataset/gen-word-1145-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 590 max words, 200 samples - at ../dataset/gen-word-590-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1555 max words - at ../dataset/shuffle-word-1555-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 770 max words, 200 samples - at ../dataset/gen-word-770-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1990 max words - at ../dataset/shuffle-word-1990-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3035 max words - at ../dataset/shuffle-word-3035-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 720 max words - at ../dataset/shuffle-word-720-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 535 max words, 200 samples - at ../dataset/gen-word-535-count.jsonl\n"
+      "Generated JSONL file with - 1280 max words, 200 samples - at ../dataset/gen-word-1280-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1590 max words, 200 samples - at ../dataset/gen-word-1590-count.jsonl\n"
+      "Generated JSONL file with - 1375 max words, 200 samples - at ../dataset/gen-word-1375-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 695 max words - at ../dataset/shuffle-word-695-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3100 max words - at ../dataset/shuffle-word-3100-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 6 samples (1 token repeat) - 475 max words - at ../dataset/shuffle-word-475-count.jsonl\n"
+      "Generated a single JSONL file with 99 samples (20 token repeat) - 505 max words - at ../dataset/shuffle-word-505-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 945 max words, 200 samples - at ../dataset/gen-word-945-count.jsonl\n"
+      "Generated a single JSONL file with 81 samples (20 token repeat) - 635 max words - at ../dataset/shuffle-word-635-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 100 samples (20 token repeat) - 580 max words - at ../dataset/shuffle-word-580-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3065 max words - at ../dataset/shuffle-word-3065-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 6 samples (1 token repeat) - 410 max words - at ../dataset/shuffle-word-410-count.jsonl\n"
+      "Generated JSONL file with - 1380 max words, 200 samples - at ../dataset/gen-word-1380-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 810 max words, 200 samples - at ../dataset/gen-word-810-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1165 max words - at ../dataset/shuffle-word-1165-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1295 max words, 200 samples - at ../dataset/gen-word-1295-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1940 max words - at ../dataset/shuffle-word-1940-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 32 samples (20 token repeat) - 2575 max words - at ../dataset/shuffle-word-2575-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2175 max words - at ../dataset/shuffle-word-2175-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 32 samples (20 token repeat) - 2530 max words - at ../dataset/shuffle-word-2530-count.jsonl\n"
+      "Generated JSONL file with - 670 max words, 200 samples - at ../dataset/gen-word-670-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 915 max words, 200 samples - at ../dataset/gen-word-915-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2180 max words - at ../dataset/shuffle-word-2180-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1505 max words - at ../dataset/shuffle-word-1505-count.jsonl\n"
+      "Generated JSONL file with - 380 max words, 100 samples - at ../dataset/gen-word-380-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1830 max words - at ../dataset/shuffle-word-1830-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1895 max words - at ../dataset/shuffle-word-1895-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2085 max words - at ../dataset/shuffle-word-2085-count.jsonl\n"
+      "Generated JSONL file with - 1175 max words, 200 samples - at ../dataset/gen-word-1175-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1985 max words - at ../dataset/shuffle-word-1985-count.jsonl\n"
+      "Generated a single JSONL file with 61 samples (20 token repeat) - 840 max words - at ../dataset/shuffle-word-840-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 710 max words, 200 samples - at ../dataset/gen-word-710-count.jsonl\n"
+      "Generated a single JSONL file with 38 samples (20 token repeat) - 2410 max words - at ../dataset/shuffle-word-2410-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 65 samples (20 token repeat) - 875 max words - at ../dataset/shuffle-word-875-count.jsonl\n"
+      "Generated JSONL file with - 1215 max words, 200 samples - at ../dataset/gen-word-1215-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 705 max words, 200 samples - at ../dataset/gen-word-705-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1890 max words - at ../dataset/shuffle-word-1890-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 82 samples (20 token repeat) - 655 max words - at ../dataset/shuffle-word-655-count.jsonl\n"
+      "Generated JSONL file with - 515 max words, 200 samples - at ../dataset/gen-word-515-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 415 max words, 100 samples - at ../dataset/gen-word-415-count.jsonl\n"
+      "Generated JSONL file with - 1465 max words, 200 samples - at ../dataset/gen-word-1465-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 51 samples (20 token repeat) - 1245 max words - at ../dataset/shuffle-word-1245-count.jsonl\n"
+      "Generated JSONL file with - 290 max words, 100 samples - at ../dataset/gen-word-290-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2815 max words - at ../dataset/shuffle-word-2815-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1055 max words - at ../dataset/shuffle-word-1055-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 50 samples (20 token repeat) - 1260 max words - at ../dataset/shuffle-word-1260-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2965 max words - at ../dataset/shuffle-word-2965-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2740 max words - at ../dataset/shuffle-word-2740-count.jsonl\n"
+      "Generated JSONL file with - 1025 max words, 200 samples - at ../dataset/gen-word-1025-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1310 max words, 200 samples - at ../dataset/gen-word-1310-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2400 max words - at ../dataset/shuffle-word-2400-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1995 max words - at ../dataset/shuffle-word-1995-count.jsonl\n"
+      "Generated a single JSONL file with 41 samples (20 token repeat) - 1395 max words - at ../dataset/shuffle-word-1395-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1095 max words - at ../dataset/shuffle-word-1095-count.jsonl\n"
+      "Generated a single JSONL file with 62 samples (20 token repeat) - 825 max words - at ../dataset/shuffle-word-825-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 35 samples (20 token repeat) - 2430 max words - at ../dataset/shuffle-word-2430-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1830 max words - at ../dataset/shuffle-word-1830-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 375 max words, 100 samples - at ../dataset/gen-word-375-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1100 max words - at ../dataset/shuffle-word-1100-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2940 max words - at ../dataset/shuffle-word-2940-count.jsonl\n"
+      "Generated a single JSONL file with 21 samples (20 token repeat) - 2755 max words - at ../dataset/shuffle-word-2755-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1665 max words - at ../dataset/shuffle-word-1665-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2885 max words - at ../dataset/shuffle-word-2885-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3570 max words - at ../dataset/shuffle-word-3570-count.jsonl\n"
+      "Generated JSONL file with - 1045 max words, 200 samples - at ../dataset/gen-word-1045-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1855 max words - at ../dataset/shuffle-word-1855-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2140 max words - at ../dataset/shuffle-word-2140-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1445 max words, 200 samples - at ../dataset/gen-word-1445-count.jsonl\n"
+      "Generated a single JSONL file with 63 samples (20 token repeat) - 900 max words - at ../dataset/shuffle-word-900-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1055 max words, 200 samples - at ../dataset/gen-word-1055-count.jsonl\n"
+      "Generated a single JSONL file with 100 samples (20 token repeat) - 540 max words - at ../dataset/shuffle-word-540-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 765 max words, 200 samples - at ../dataset/gen-word-765-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2815 max words - at ../dataset/shuffle-word-2815-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 51 samples (20 token repeat) - 1285 max words - at ../dataset/shuffle-word-1285-count.jsonl\n"
+      "Generated JSONL file with - 1255 max words, 200 samples - at ../dataset/gen-word-1255-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3515 max words - at ../dataset/shuffle-word-3515-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3090 max words - at ../dataset/shuffle-word-3090-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 710 max words - at ../dataset/shuffle-word-710-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1695 max words - at ../dataset/shuffle-word-1695-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1635 max words - at ../dataset/shuffle-word-1635-count.jsonl\n"
+      "Generated a single JSONL file with 50 samples (20 token repeat) - 1215 max words - at ../dataset/shuffle-word-1215-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 61 samples (20 token repeat) - 890 max words - at ../dataset/shuffle-word-890-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1360 max words - at ../dataset/shuffle-word-1360-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1415 max words - at ../dataset/shuffle-word-1415-count.jsonl\n"
+      "Generated a single JSONL file with 21 samples (20 token repeat) - 2795 max words - at ../dataset/shuffle-word-2795-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 6 samples (1 token repeat) - 420 max words - at ../dataset/shuffle-word-420-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2120 max words - at ../dataset/shuffle-word-2120-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2350 max words - at ../dataset/shuffle-word-2350-count.jsonl\n"
+      "Generated JSONL file with - 715 max words, 200 samples - at ../dataset/gen-word-715-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1065 max words - at ../dataset/shuffle-word-1065-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3095 max words - at ../dataset/shuffle-word-3095-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1110 max words - at ../dataset/shuffle-word-1110-count.jsonl\n"
+      "Generated JSONL file with - 165 max words, 100 samples - at ../dataset/gen-word-165-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1375 max words, 200 samples - at ../dataset/gen-word-1375-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1820 max words - at ../dataset/shuffle-word-1820-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2165 max words, 200 samples - at ../dataset/gen-word-2165-count.jsonl\n"
+      "Generated a single JSONL file with 81 samples (20 token repeat) - 625 max words - at ../dataset/shuffle-word-625-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 59 samples (20 token repeat) - 1150 max words - at ../dataset/shuffle-word-1150-count.jsonl\n"
+      "Generated JSONL file with - 830 max words, 200 samples - at ../dataset/gen-word-830-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 9 samples (1 token repeat) - 290 max words - at ../dataset/shuffle-word-290-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1120 max words - at ../dataset/shuffle-word-1120-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 62 samples (20 token repeat) - 895 max words - at ../dataset/shuffle-word-895-count.jsonl\n"
+      "Generated JSONL file with - 730 max words, 200 samples - at ../dataset/gen-word-730-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1570 max words, 200 samples - at ../dataset/gen-word-1570-count.jsonl\n"
+      "Generated JSONL file with - 420 max words, 100 samples - at ../dataset/gen-word-420-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3390 max words - at ../dataset/shuffle-word-3390-count.jsonl\n"
+      "Generated JSONL file with - 1755 max words, 200 samples - at ../dataset/gen-word-1755-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1470 max words - at ../dataset/shuffle-word-1470-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 355 max words - at ../dataset/shuffle-word-355-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1335 max words - at ../dataset/shuffle-word-1335-count.jsonl\n"
+      "Generated a single JSONL file with 27 samples (20 token repeat) - 2575 max words - at ../dataset/shuffle-word-2575-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1135 max words, 200 samples - at ../dataset/gen-word-1135-count.jsonl\n"
+      "Generated JSONL file with - 1355 max words, 200 samples - at ../dataset/gen-word-1355-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3575 max words - at ../dataset/shuffle-word-3575-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2970 max words - at ../dataset/shuffle-word-2970-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1115 max words - at ../dataset/shuffle-word-1115-count.jsonl\n"
+      "Generated JSONL file with - 1325 max words, 200 samples - at ../dataset/gen-word-1325-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 815 max words, 200 samples - at ../dataset/gen-word-815-count.jsonl\n"
+      "Generated a single JSONL file with 10 samples (1 token repeat) - 215 max words - at ../dataset/shuffle-word-215-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3065 max words - at ../dataset/shuffle-word-3065-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1690 max words - at ../dataset/shuffle-word-1690-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2110 max words - at ../dataset/shuffle-word-2110-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1885 max words - at ../dataset/shuffle-word-1885-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 460 max words, 100 samples - at ../dataset/gen-word-460-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1720 max words - at ../dataset/shuffle-word-1720-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 9 samples (1 token repeat) - 280 max words - at ../dataset/shuffle-word-280-count.jsonl\n"
+      "Generated JSONL file with - 1085 max words, 200 samples - at ../dataset/gen-word-1085-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 100 samples (20 token repeat) - 515 max words - at ../dataset/shuffle-word-515-count.jsonl\n"
+      "Generated JSONL file with - 270 max words, 100 samples - at ../dataset/gen-word-270-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 51 samples (20 token repeat) - 1280 max words - at ../dataset/shuffle-word-1280-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1845 max words - at ../dataset/shuffle-word-1845-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 645 max words, 200 samples - at ../dataset/gen-word-645-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2995 max words - at ../dataset/shuffle-word-2995-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 795 max words, 200 samples - at ../dataset/gen-word-795-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1965 max words - at ../dataset/shuffle-word-1965-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2880 max words - at ../dataset/shuffle-word-2880-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1740 max words - at ../dataset/shuffle-word-1740-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1945 max words - at ../dataset/shuffle-word-1945-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1150 max words - at ../dataset/shuffle-word-1150-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1805 max words - at ../dataset/shuffle-word-1805-count.jsonl\n"
+      "Generated JSONL file with - 580 max words, 200 samples - at ../dataset/gen-word-580-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1155 max words, 200 samples - at ../dataset/gen-word-1155-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1180 max words - at ../dataset/shuffle-word-1180-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 970 max words, 200 samples - at ../dataset/gen-word-970-count.jsonl\n"
+      "Generated JSONL file with - 1775 max words, 200 samples - at ../dataset/gen-word-1775-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1750 max words - at ../dataset/shuffle-word-1750-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3030 max words - at ../dataset/shuffle-word-3030-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1370 max words - at ../dataset/shuffle-word-1370-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1455 max words - at ../dataset/shuffle-word-1455-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1670 max words, 200 samples - at ../dataset/gen-word-1670-count.jsonl\n"
+      "Generated a single JSONL file with 37 samples (20 token repeat) - 2465 max words - at ../dataset/shuffle-word-2465-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 895 max words, 200 samples - at ../dataset/gen-word-895-count.jsonl\n"
+      "Generated JSONL file with - 415 max words, 100 samples - at ../dataset/gen-word-415-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2925 max words - at ../dataset/shuffle-word-2925-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 970 max words - at ../dataset/shuffle-word-970-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 78 samples (20 token repeat) - 790 max words - at ../dataset/shuffle-word-790-count.jsonl\n"
+      "Generated a single JSONL file with 51 samples (20 token repeat) - 1280 max words - at ../dataset/shuffle-word-1280-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1400 max words - at ../dataset/shuffle-word-1400-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 750 max words - at ../dataset/shuffle-word-750-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 725 max words, 200 samples - at ../dataset/gen-word-725-count.jsonl\n"
+      "Generated a single JSONL file with 36 samples (20 token repeat) - 2495 max words - at ../dataset/shuffle-word-2495-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 775 max words - at ../dataset/shuffle-word-775-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1110 max words - at ../dataset/shuffle-word-1110-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1625 max words, 200 samples - at ../dataset/gen-word-1625-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1480 max words - at ../dataset/shuffle-word-1480-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 890 max words, 200 samples - at ../dataset/gen-word-890-count.jsonl\n"
+      "Generated a single JSONL file with 79 samples (20 token repeat) - 765 max words - at ../dataset/shuffle-word-765-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1970 max words - at ../dataset/shuffle-word-1970-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3680 max words - at ../dataset/shuffle-word-3680-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 340 max words, 100 samples - at ../dataset/gen-word-340-count.jsonl\n"
+      "Generated JSONL file with - 1100 max words, 200 samples - at ../dataset/gen-word-1100-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3105 max words - at ../dataset/shuffle-word-3105-count.jsonl\n"
+      "Generated JSONL file with - 700 max words, 200 samples - at ../dataset/gen-word-700-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1705 max words - at ../dataset/shuffle-word-1705-count.jsonl\n"
+      "Generated JSONL file with - 1680 max words, 200 samples - at ../dataset/gen-word-1680-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 36 samples (20 token repeat) - 2490 max words - at ../dataset/shuffle-word-2490-count.jsonl\n"
+      "Generated a single JSONL file with 82 samples (20 token repeat) - 645 max words - at ../dataset/shuffle-word-645-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3895 max words - at ../dataset/shuffle-word-3895-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1325 max words - at ../dataset/shuffle-word-1325-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3490 max words - at ../dataset/shuffle-word-3490-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 495 max words - at ../dataset/shuffle-word-495-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 49 samples (20 token repeat) - 1300 max words - at ../dataset/shuffle-word-1300-count.jsonl\n"
+      "Generated JSONL file with - 505 max words, 200 samples - at ../dataset/gen-word-505-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 670 max words, 200 samples - at ../dataset/gen-word-670-count.jsonl\n"
+      "Generated JSONL file with - 1670 max words, 200 samples - at ../dataset/gen-word-1670-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 37 samples (20 token repeat) - 2450 max words - at ../dataset/shuffle-word-2450-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1725 max words - at ../dataset/shuffle-word-1725-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1450 max words - at ../dataset/shuffle-word-1450-count.jsonl\n"
+      "Generated a single JSONL file with 100 samples (20 token repeat) - 560 max words - at ../dataset/shuffle-word-560-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 26 samples (20 token repeat) - 2555 max words - at ../dataset/shuffle-word-2555-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1515 max words - at ../dataset/shuffle-word-1515-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 900 max words, 200 samples - at ../dataset/gen-word-900-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3280 max words - at ../dataset/shuffle-word-3280-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1595 max words, 200 samples - at ../dataset/gen-word-1595-count.jsonl\n"
+      "Generated a single JSONL file with 29 samples (20 token repeat) - 2515 max words - at ../dataset/shuffle-word-2515-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1045 max words, 200 samples - at ../dataset/gen-word-1045-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1435 max words - at ../dataset/shuffle-word-1435-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2995 max words - at ../dataset/shuffle-word-2995-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2135 max words - at ../dataset/shuffle-word-2135-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1485 max words - at ../dataset/shuffle-word-1485-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1320 max words - at ../dataset/shuffle-word-1320-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2745 max words - at ../dataset/shuffle-word-2745-count.jsonl\n"
+      "Generated JSONL file with - 860 max words, 200 samples - at ../dataset/gen-word-860-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1705 max words, 200 samples - at ../dataset/gen-word-1705-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1135 max words - at ../dataset/shuffle-word-1135-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 865 max words, 200 samples - at ../dataset/gen-word-865-count.jsonl\n"
+      "Generated JSONL file with - 1415 max words, 200 samples - at ../dataset/gen-word-1415-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 850 max words, 200 samples - at ../dataset/gen-word-850-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2265 max words - at ../dataset/shuffle-word-2265-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1235 max words, 200 samples - at ../dataset/gen-word-1235-count.jsonl\n"
+      "Generated a single JSONL file with 23 samples (20 token repeat) - 2790 max words - at ../dataset/shuffle-word-2790-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 750 max words, 200 samples - at ../dataset/gen-word-750-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 340 max words - at ../dataset/shuffle-word-340-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1045 max words - at ../dataset/shuffle-word-1045-count.jsonl\n"
+      "Generated JSONL file with - 560 max words, 200 samples - at ../dataset/gen-word-560-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 61 samples (20 token repeat) - 870 max words - at ../dataset/shuffle-word-870-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 680 max words - at ../dataset/shuffle-word-680-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 775 max words, 200 samples - at ../dataset/gen-word-775-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1810 max words - at ../dataset/shuffle-word-1810-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2010 max words, 200 samples - at ../dataset/gen-word-2010-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 730 max words - at ../dataset/shuffle-word-730-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1275 max words, 200 samples - at ../dataset/gen-word-1275-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2735 max words - at ../dataset/shuffle-word-2735-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 875 max words, 200 samples - at ../dataset/gen-word-875-count.jsonl\n"
+      "Generated JSONL file with - 805 max words, 200 samples - at ../dataset/gen-word-805-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 735 max words - at ../dataset/shuffle-word-735-count.jsonl\n"
+      "Generated JSONL file with - 1055 max words, 200 samples - at ../dataset/gen-word-1055-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 840 max words, 200 samples - at ../dataset/gen-word-840-count.jsonl\n"
+      "Generated JSONL file with - 1825 max words, 200 samples - at ../dataset/gen-word-1825-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 800 max words - at ../dataset/shuffle-word-800-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1530 max words - at ../dataset/shuffle-word-1530-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1220 max words, 200 samples - at ../dataset/gen-word-1220-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2865 max words - at ../dataset/shuffle-word-2865-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1175 max words, 200 samples - at ../dataset/gen-word-1175-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1710 max words - at ../dataset/shuffle-word-1710-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 855 max words, 200 samples - at ../dataset/gen-word-855-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 930 max words - at ../dataset/shuffle-word-930-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1910 max words - at ../dataset/shuffle-word-1910-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1935 max words - at ../dataset/shuffle-word-1935-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3450 max words - at ../dataset/shuffle-word-3450-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2975 max words - at ../dataset/shuffle-word-2975-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 650 max words, 200 samples - at ../dataset/gen-word-650-count.jsonl\n"
+      "Generated a single JSONL file with 62 samples (20 token repeat) - 820 max words - at ../dataset/shuffle-word-820-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 960 max words, 200 samples - at ../dataset/gen-word-960-count.jsonl\n"
+      "Generated JSONL file with - 985 max words, 200 samples - at ../dataset/gen-word-985-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1550 max words, 200 samples - at ../dataset/gen-word-1550-count.jsonl\n"
+      "Generated JSONL file with - 720 max words, 200 samples - at ../dataset/gen-word-720-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3125 max words - at ../dataset/shuffle-word-3125-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 940 max words - at ../dataset/shuffle-word-940-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 6 samples (1 token repeat) - 465 max words - at ../dataset/shuffle-word-465-count.jsonl\n"
+      "Generated JSONL file with - 310 max words, 100 samples - at ../dataset/gen-word-310-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3395 max words - at ../dataset/shuffle-word-3395-count.jsonl\n"
+      "Generated JSONL file with - 1480 max words, 200 samples - at ../dataset/gen-word-1480-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1285 max words, 200 samples - at ../dataset/gen-word-1285-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3110 max words - at ../dataset/shuffle-word-3110-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1585 max words, 200 samples - at ../dataset/gen-word-1585-count.jsonl\n"
+      "Generated a single JSONL file with 22 samples (20 token repeat) - 2700 max words - at ../dataset/shuffle-word-2700-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 735 max words, 200 samples - at ../dataset/gen-word-735-count.jsonl\n"
+      "Generated JSONL file with - 600 max words, 200 samples - at ../dataset/gen-word-600-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 965 max words - at ../dataset/shuffle-word-965-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2985 max words - at ../dataset/shuffle-word-2985-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 715 max words, 200 samples - at ../dataset/gen-word-715-count.jsonl\n"
+      "Generated JSONL file with - 1240 max words, 200 samples - at ../dataset/gen-word-1240-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1195 max words, 200 samples - at ../dataset/gen-word-1195-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1850 max words - at ../dataset/shuffle-word-1850-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1770 max words - at ../dataset/shuffle-word-1770-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3025 max words - at ../dataset/shuffle-word-3025-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3700 max words - at ../dataset/shuffle-word-3700-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3355 max words - at ../dataset/shuffle-word-3355-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1730 max words - at ../dataset/shuffle-word-1730-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2870 max words - at ../dataset/shuffle-word-2870-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1980 max words, 200 samples - at ../dataset/gen-word-1980-count.jsonl\n"
+      "Generated JSONL file with - 680 max words, 200 samples - at ../dataset/gen-word-680-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1755 max words - at ../dataset/shuffle-word-1755-count.jsonl\n"
+      "Generated JSONL file with - 820 max words, 200 samples - at ../dataset/gen-word-820-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 81 samples (20 token repeat) - 700 max words - at ../dataset/shuffle-word-700-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1550 max words - at ../dataset/shuffle-word-1550-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 830 max words, 200 samples - at ../dataset/gen-word-830-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3395 max words - at ../dataset/shuffle-word-3395-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1080 max words - at ../dataset/shuffle-word-1080-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3995 max words - at ../dataset/shuffle-word-3995-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 6 samples (1 token repeat) - 425 max words - at ../dataset/shuffle-word-425-count.jsonl\n"
+      "Generated JSONL file with - 1235 max words, 200 samples - at ../dataset/gen-word-1235-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1880 max words - at ../dataset/shuffle-word-1880-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3495 max words - at ../dataset/shuffle-word-3495-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1940 max words - at ../dataset/shuffle-word-1940-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1880 max words - at ../dataset/shuffle-word-1880-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1420 max words, 200 samples - at ../dataset/gen-word-1420-count.jsonl\n"
+      "Generated a single JSONL file with 10 samples (1 token repeat) - 235 max words - at ../dataset/shuffle-word-235-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 22 samples (20 token repeat) - 2705 max words - at ../dataset/shuffle-word-2705-count.jsonl\n"
+      "Generated JSONL file with - 550 max words, 200 samples - at ../dataset/gen-word-550-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 27 samples (20 token repeat) - 2520 max words - at ../dataset/shuffle-word-2520-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3800 max words - at ../dataset/shuffle-word-3800-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1545 max words - at ../dataset/shuffle-word-1545-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3140 max words - at ../dataset/shuffle-word-3140-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1840 max words - at ../dataset/shuffle-word-1840-count.jsonl\n"
+      "Generated a single JSONL file with 31 samples (20 token repeat) - 2570 max words - at ../dataset/shuffle-word-2570-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 970 max words - at ../dataset/shuffle-word-970-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3835 max words - at ../dataset/shuffle-word-3835-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1545 max words, 200 samples - at ../dataset/gen-word-1545-count.jsonl\n"
+      "Generated JSONL file with - 250 max words, 100 samples - at ../dataset/gen-word-250-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 21 samples (20 token repeat) - 2735 max words - at ../dataset/shuffle-word-2735-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1875 max words - at ../dataset/shuffle-word-1875-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3725 max words - at ../dataset/shuffle-word-3725-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3000 max words - at ../dataset/shuffle-word-3000-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3860 max words - at ../dataset/shuffle-word-3860-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1020 max words - at ../dataset/shuffle-word-1020-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 395 max words, 100 samples - at ../dataset/gen-word-395-count.jsonl\n"
+      "Generated JSONL file with - 1110 max words, 200 samples - at ../dataset/gen-word-1110-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1100 max words, 200 samples - at ../dataset/gen-word-1100-count.jsonl\n"
+      "Generated JSONL file with - 375 max words, 100 samples - at ../dataset/gen-word-375-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 49 samples (20 token repeat) - 1210 max words - at ../dataset/shuffle-word-1210-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2915 max words - at ../dataset/shuffle-word-2915-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 49 samples (20 token repeat) - 1295 max words - at ../dataset/shuffle-word-1295-count.jsonl\n"
+      "Generated JSONL file with - 1805 max words, 200 samples - at ../dataset/gen-word-1805-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1430 max words, 200 samples - at ../dataset/gen-word-1430-count.jsonl\n"
+      "Generated JSONL file with - 1820 max words, 200 samples - at ../dataset/gen-word-1820-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2725 max words - at ../dataset/shuffle-word-2725-count.jsonl\n"
+      "Generated JSONL file with - 1020 max words, 200 samples - at ../dataset/gen-word-1020-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1685 max words - at ../dataset/shuffle-word-1685-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1065 max words - at ../dataset/shuffle-word-1065-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3855 max words - at ../dataset/shuffle-word-3855-count.jsonl\n"
+      "Generated JSONL file with - 1450 max words, 200 samples - at ../dataset/gen-word-1450-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1595 max words - at ../dataset/shuffle-word-1595-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2720 max words - at ../dataset/shuffle-word-2720-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1520 max words, 200 samples - at ../dataset/gen-word-1520-count.jsonl\n"
+      "Generated JSONL file with - 1410 max words, 200 samples - at ../dataset/gen-word-1410-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 30 samples (20 token repeat) - 2515 max words - at ../dataset/shuffle-word-2515-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 800 max words - at ../dataset/shuffle-word-800-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2755 max words - at ../dataset/shuffle-word-2755-count.jsonl\n"
+      "Generated a single JSONL file with 23 samples (20 token repeat) - 2730 max words - at ../dataset/shuffle-word-2730-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 100 samples (20 token repeat) - 560 max words - at ../dataset/shuffle-word-560-count.jsonl\n"
+      "Generated JSONL file with - 1365 max words, 200 samples - at ../dataset/gen-word-1365-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1085 max words - at ../dataset/shuffle-word-1085-count.jsonl\n"
+      "Generated JSONL file with - 1395 max words, 200 samples - at ../dataset/gen-word-1395-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3305 max words - at ../dataset/shuffle-word-3305-count.jsonl\n"
+      "Generated JSONL file with - 1810 max words, 200 samples - at ../dataset/gen-word-1810-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 100 samples (20 token repeat) - 585 max words - at ../dataset/shuffle-word-585-count.jsonl\n"
+      "Generated a single JSONL file with 64 samples (20 token repeat) - 895 max words - at ../dataset/shuffle-word-895-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3835 max words - at ../dataset/shuffle-word-3835-count.jsonl\n"
+      "Generated JSONL file with - 1580 max words, 200 samples - at ../dataset/gen-word-1580-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1730 max words, 200 samples - at ../dataset/gen-word-1730-count.jsonl\n"
+      "Generated JSONL file with - 1165 max words, 200 samples - at ../dataset/gen-word-1165-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3455 max words - at ../dataset/shuffle-word-3455-count.jsonl\n"
+      "Generated JSONL file with - 555 max words, 200 samples - at ../dataset/gen-word-555-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1695 max words, 200 samples - at ../dataset/gen-word-1695-count.jsonl\n"
+      "Generated JSONL file with - 545 max words, 200 samples - at ../dataset/gen-word-545-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1280 max words, 200 samples - at ../dataset/gen-word-1280-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1905 max words - at ../dataset/shuffle-word-1905-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 720 max words - at ../dataset/shuffle-word-720-count.jsonl\n"
+      "Generated JSONL file with - 1700 max words, 200 samples - at ../dataset/gen-word-1700-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3540 max words - at ../dataset/shuffle-word-3540-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2155 max words - at ../dataset/shuffle-word-2155-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3645 max words - at ../dataset/shuffle-word-3645-count.jsonl\n"
+      "Generated JSONL file with - 1590 max words, 200 samples - at ../dataset/gen-word-1590-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 22 samples (20 token repeat) - 2795 max words - at ../dataset/shuffle-word-2795-count.jsonl\n"
+      "Generated JSONL file with - 1265 max words, 200 samples - at ../dataset/gen-word-1265-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1470 max words, 200 samples - at ../dataset/gen-word-1470-count.jsonl\n"
+      "Generated JSONL file with - 510 max words, 200 samples - at ../dataset/gen-word-510-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1700 max words - at ../dataset/shuffle-word-1700-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1780 max words - at ../dataset/shuffle-word-1780-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1460 max words, 200 samples - at ../dataset/gen-word-1460-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 500 max words - at ../dataset/shuffle-word-500-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 4000 max words - at ../dataset/shuffle-word-4000-count.jsonl\n"
+      "Generated JSONL file with - 1435 max words, 200 samples - at ../dataset/gen-word-1435-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1885 max words - at ../dataset/shuffle-word-1885-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2165 max words - at ../dataset/shuffle-word-2165-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3440 max words - at ../dataset/shuffle-word-3440-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2115 max words - at ../dataset/shuffle-word-2115-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1360 max words - at ../dataset/shuffle-word-1360-count.jsonl\n"
+      "Generated JSONL file with - 1910 max words, 200 samples - at ../dataset/gen-word-1910-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1145 max words, 200 samples - at ../dataset/gen-word-1145-count.jsonl\n"
+      "Generated JSONL file with - 1800 max words, 200 samples - at ../dataset/gen-word-1800-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2325 max words - at ../dataset/shuffle-word-2325-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1980 max words - at ../dataset/shuffle-word-1980-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2010 max words - at ../dataset/shuffle-word-2010-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1705 max words - at ../dataset/shuffle-word-1705-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1570 max words - at ../dataset/shuffle-word-1570-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1760 max words - at ../dataset/shuffle-word-1760-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1515 max words - at ../dataset/shuffle-word-1515-count.jsonl\n"
+      "Generated JSONL file with - 1505 max words, 200 samples - at ../dataset/gen-word-1505-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3880 max words - at ../dataset/shuffle-word-3880-count.jsonl\n"
+      "Generated JSONL file with - 610 max words, 200 samples - at ../dataset/gen-word-610-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 570 max words, 200 samples - at ../dataset/gen-word-570-count.jsonl\n"
+      "Generated JSONL file with - 1155 max words, 200 samples - at ../dataset/gen-word-1155-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 64 samples (20 token repeat) - 830 max words - at ../dataset/shuffle-word-830-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3610 max words - at ../dataset/shuffle-word-3610-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 63 samples (20 token repeat) - 860 max words - at ../dataset/shuffle-word-860-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1090 max words - at ../dataset/shuffle-word-1090-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 680 max words - at ../dataset/shuffle-word-680-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2100 max words - at ../dataset/shuffle-word-2100-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3045 max words - at ../dataset/shuffle-word-3045-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1630 max words - at ../dataset/shuffle-word-1630-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2205 max words - at ../dataset/shuffle-word-2205-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1450 max words - at ../dataset/shuffle-word-1450-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3595 max words - at ../dataset/shuffle-word-3595-count.jsonl\n"
+      "Generated JSONL file with - 765 max words, 200 samples - at ../dataset/gen-word-765-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3715 max words - at ../dataset/shuffle-word-3715-count.jsonl\n"
+      "Generated a single JSONL file with 9 samples (1 token repeat) - 300 max words - at ../dataset/shuffle-word-300-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 690 max words - at ../dataset/shuffle-word-690-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2020 max words - at ../dataset/shuffle-word-2020-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1020 max words, 200 samples - at ../dataset/gen-word-1020-count.jsonl\n"
+      "Generated a single JSONL file with 82 samples (20 token repeat) - 685 max words - at ../dataset/shuffle-word-685-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3495 max words - at ../dataset/shuffle-word-3495-count.jsonl\n"
+      "Generated JSONL file with - 1600 max words, 200 samples - at ../dataset/gen-word-1600-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 950 max words - at ../dataset/shuffle-word-950-count.jsonl\n"
+      "Generated a single JSONL file with 100 samples (20 token repeat) - 580 max words - at ../dataset/shuffle-word-580-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 39 samples (20 token repeat) - 2305 max words - at ../dataset/shuffle-word-2305-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1750 max words - at ../dataset/shuffle-word-1750-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2105 max words - at ../dataset/shuffle-word-2105-count.jsonl\n"
+      "Generated JSONL file with - 1180 max words, 200 samples - at ../dataset/gen-word-1180-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 785 max words - at ../dataset/shuffle-word-785-count.jsonl\n"
+      "Generated a single JSONL file with 41 samples (20 token repeat) - 1315 max words - at ../dataset/shuffle-word-1315-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1030 max words - at ../dataset/shuffle-word-1030-count.jsonl\n"
+      "Generated JSONL file with - 1565 max words, 200 samples - at ../dataset/gen-word-1565-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1655 max words, 200 samples - at ../dataset/gen-word-1655-count.jsonl\n"
+      "Generated JSONL file with - 565 max words, 200 samples - at ../dataset/gen-word-565-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3040 max words, 200 samples - at ../dataset/gen-word-3040-count.jsonl\n"
+      "Generated JSONL file with - 335 max words, 100 samples - at ../dataset/gen-word-335-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 41 samples (20 token repeat) - 1380 max words - at ../dataset/shuffle-word-1380-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1200 max words - at ../dataset/shuffle-word-1200-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1540 max words - at ../dataset/shuffle-word-1540-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3905 max words - at ../dataset/shuffle-word-3905-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 435 max words, 100 samples - at ../dataset/gen-word-435-count.jsonl\n"
+      "Generated a single JSONL file with 33 samples (20 token repeat) - 2530 max words - at ../dataset/shuffle-word-2530-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 23 samples (20 token repeat) - 2605 max words - at ../dataset/shuffle-word-2605-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1700 max words - at ../dataset/shuffle-word-1700-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1400 max words, 200 samples - at ../dataset/gen-word-1400-count.jsonl\n"
+      "Generated JSONL file with - 2045 max words, 200 samples - at ../dataset/gen-word-2045-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1795 max words - at ../dataset/shuffle-word-1795-count.jsonl\n"
+      "Generated a single JSONL file with 100 samples (20 token repeat) - 570 max words - at ../dataset/shuffle-word-570-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 22 samples (20 token repeat) - 2635 max words - at ../dataset/shuffle-word-2635-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1770 max words - at ../dataset/shuffle-word-1770-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 945 max words - at ../dataset/shuffle-word-945-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1755 max words - at ../dataset/shuffle-word-1755-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1665 max words, 200 samples - at ../dataset/gen-word-1665-count.jsonl\n"
+      "Generated JSONL file with - 1390 max words, 200 samples - at ../dataset/gen-word-1390-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2825 max words - at ../dataset/shuffle-word-2825-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1730 max words - at ../dataset/shuffle-word-1730-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1465 max words - at ../dataset/shuffle-word-1465-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1145 max words - at ../dataset/shuffle-word-1145-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 740 max words - at ../dataset/shuffle-word-740-count.jsonl\n"
+      "Generated JSONL file with - 905 max words, 200 samples - at ../dataset/gen-word-905-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 990 max words - at ../dataset/shuffle-word-990-count.jsonl\n"
+      "Generated a single JSONL file with 81 samples (20 token repeat) - 670 max words - at ../dataset/shuffle-word-670-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2830 max words, 200 samples - at ../dataset/gen-word-2830-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3985 max words - at ../dataset/shuffle-word-3985-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 935 max words, 200 samples - at ../dataset/gen-word-935-count.jsonl\n"
+      "Generated a single JSONL file with 51 samples (20 token repeat) - 1285 max words - at ../dataset/shuffle-word-1285-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1990 max words - at ../dataset/shuffle-word-1990-count.jsonl\n"
+      "Generated a single JSONL file with 100 samples (20 token repeat) - 575 max words - at ../dataset/shuffle-word-575-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 285 max words, 100 samples - at ../dataset/gen-word-285-count.jsonl\n"
+      "Generated JSONL file with - 775 max words, 200 samples - at ../dataset/gen-word-775-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3525 max words - at ../dataset/shuffle-word-3525-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2160 max words - at ../dataset/shuffle-word-2160-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3500 max words - at ../dataset/shuffle-word-3500-count.jsonl\n"
+      "Generated JSONL file with - 1295 max words, 200 samples - at ../dataset/gen-word-1295-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 755 max words, 200 samples - at ../dataset/gen-word-755-count.jsonl\n"
+      "Generated JSONL file with - 320 max words, 100 samples - at ../dataset/gen-word-320-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1515 max words, 200 samples - at ../dataset/gen-word-1515-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2340 max words - at ../dataset/shuffle-word-2340-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 980 max words - at ../dataset/shuffle-word-980-count.jsonl\n"
+      "Generated JSONL file with - 1010 max words, 200 samples - at ../dataset/gen-word-1010-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1960 max words - at ../dataset/shuffle-word-1960-count.jsonl\n"
+      "Generated JSONL file with - 1315 max words, 200 samples - at ../dataset/gen-word-1315-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3955 max words - at ../dataset/shuffle-word-3955-count.jsonl\n"
+      "Generated a single JSONL file with 100 samples (20 token repeat) - 525 max words - at ../dataset/shuffle-word-525-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1070 max words - at ../dataset/shuffle-word-1070-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3750 max words - at ../dataset/shuffle-word-3750-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1510 max words - at ../dataset/shuffle-word-1510-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1000 max words - at ../dataset/shuffle-word-1000-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1785 max words - at ../dataset/shuffle-word-1785-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2200 max words - at ../dataset/shuffle-word-2200-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 38 samples (20 token repeat) - 2335 max words - at ../dataset/shuffle-word-2335-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1425 max words - at ../dataset/shuffle-word-1425-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1860 max words - at ../dataset/shuffle-word-1860-count.jsonl\n"
+      "Generated JSONL file with - 1830 max words, 200 samples - at ../dataset/gen-word-1830-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3095 max words - at ../dataset/shuffle-word-3095-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3885 max words - at ../dataset/shuffle-word-3885-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1630 max words - at ../dataset/shuffle-word-1630-count.jsonl\n"
+      "Generated JSONL file with - 785 max words, 200 samples - at ../dataset/gen-word-785-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1115 max words, 200 samples - at ../dataset/gen-word-1115-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1925 max words - at ../dataset/shuffle-word-1925-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1655 max words - at ../dataset/shuffle-word-1655-count.jsonl\n"
+      "Generated JSONL file with - 735 max words, 200 samples - at ../dataset/gen-word-735-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 22 samples (20 token repeat) - 2690 max words - at ../dataset/shuffle-word-2690-count.jsonl\n"
+      "Generated JSONL file with - 790 max words, 200 samples - at ../dataset/gen-word-790-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1530 max words - at ../dataset/shuffle-word-1530-count.jsonl\n"
+      "Generated JSONL file with - 1665 max words, 200 samples - at ../dataset/gen-word-1665-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1745 max words, 200 samples - at ../dataset/gen-word-1745-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1855 max words - at ../dataset/shuffle-word-1855-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 59 samples (20 token repeat) - 1170 max words - at ../dataset/shuffle-word-1170-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1670 max words - at ../dataset/shuffle-word-1670-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 635 max words, 200 samples - at ../dataset/gen-word-635-count.jsonl\n"
+      "Generated JSONL file with - 630 max words, 200 samples - at ../dataset/gen-word-630-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3375 max words - at ../dataset/shuffle-word-3375-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3585 max words - at ../dataset/shuffle-word-3585-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 65 samples (20 token repeat) - 885 max words - at ../dataset/shuffle-word-885-count.jsonl\n"
+      "Generated JSONL file with - 460 max words, 100 samples - at ../dataset/gen-word-460-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 975 max words - at ../dataset/shuffle-word-975-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3765 max words - at ../dataset/shuffle-word-3765-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2820 max words - at ../dataset/shuffle-word-2820-count.jsonl\n"
+      "Generated a single JSONL file with 29 samples (20 token repeat) - 2545 max words - at ../dataset/shuffle-word-2545-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1605 max words - at ../dataset/shuffle-word-1605-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1005 max words - at ../dataset/shuffle-word-1005-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 23 samples (20 token repeat) - 2625 max words - at ../dataset/shuffle-word-2625-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3195 max words - at ../dataset/shuffle-word-3195-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 955 max words, 200 samples - at ../dataset/gen-word-955-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2360 max words - at ../dataset/shuffle-word-2360-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1740 max words - at ../dataset/shuffle-word-1740-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1540 max words - at ../dataset/shuffle-word-1540-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1435 max words - at ../dataset/shuffle-word-1435-count.jsonl\n"
+      "Generated JSONL file with - 945 max words, 200 samples - at ../dataset/gen-word-945-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 33 samples (20 token repeat) - 2540 max words - at ../dataset/shuffle-word-2540-count.jsonl\n"
+      "Generated JSONL file with - 1855 max words, 200 samples - at ../dataset/gen-word-1855-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1890 max words - at ../dataset/shuffle-word-1890-count.jsonl\n"
+      "Generated JSONL file with - 1495 max words, 200 samples - at ../dataset/gen-word-1495-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1615 max words, 200 samples - at ../dataset/gen-word-1615-count.jsonl\n"
+      "Generated JSONL file with - 1080 max words, 200 samples - at ../dataset/gen-word-1080-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3785 max words - at ../dataset/shuffle-word-3785-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3210 max words - at ../dataset/shuffle-word-3210-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3475 max words - at ../dataset/shuffle-word-3475-count.jsonl\n"
+      "Generated JSONL file with - 525 max words, 200 samples - at ../dataset/gen-word-525-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 21 samples (20 token repeat) - 2660 max words - at ../dataset/shuffle-word-2660-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3860 max words - at ../dataset/shuffle-word-3860-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1965 max words - at ../dataset/shuffle-word-1965-count.jsonl\n"
+      "Generated JSONL file with - 1075 max words, 200 samples - at ../dataset/gen-word-1075-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2720 max words - at ../dataset/shuffle-word-2720-count.jsonl\n"
+      "Generated JSONL file with - 1690 max words, 200 samples - at ../dataset/gen-word-1690-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1330 max words, 200 samples - at ../dataset/gen-word-1330-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3085 max words - at ../dataset/shuffle-word-3085-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3460 max words - at ../dataset/shuffle-word-3460-count.jsonl\n"
+      "Generated JSONL file with - 780 max words, 200 samples - at ../dataset/gen-word-780-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1690 max words, 200 samples - at ../dataset/gen-word-1690-count.jsonl\n"
+      "Generated a single JSONL file with 10 samples (1 token repeat) - 245 max words - at ../dataset/shuffle-word-245-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3505 max words - at ../dataset/shuffle-word-3505-count.jsonl\n"
+      "Generated JSONL file with - 1725 max words, 200 samples - at ../dataset/gen-word-1725-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1050 max words - at ../dataset/shuffle-word-1050-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1955 max words - at ../dataset/shuffle-word-1955-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2115 max words - at ../dataset/shuffle-word-2115-count.jsonl\n"
+      "Generated JSONL file with - 1335 max words, 200 samples - at ../dataset/gen-word-1335-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1825 max words - at ../dataset/shuffle-word-1825-count.jsonl\n"
+      "Generated JSONL file with - 1735 max words, 200 samples - at ../dataset/gen-word-1735-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2080 max words - at ../dataset/shuffle-word-2080-count.jsonl\n"
+      "Generated JSONL file with - 725 max words, 200 samples - at ../dataset/gen-word-725-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 23 samples (20 token repeat) - 2700 max words - at ../dataset/shuffle-word-2700-count.jsonl\n"
+      "Generated JSONL file with - 835 max words, 200 samples - at ../dataset/gen-word-835-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1255 max words, 200 samples - at ../dataset/gen-word-1255-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3120 max words - at ../dataset/shuffle-word-3120-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3300 max words - at ../dataset/shuffle-word-3300-count.jsonl\n"
+      "Generated JSONL file with - 1470 max words, 200 samples - at ../dataset/gen-word-1470-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1500 max words - at ../dataset/shuffle-word-1500-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3485 max words - at ../dataset/shuffle-word-3485-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1150 max words, 200 samples - at ../dataset/gen-word-1150-count.jsonl\n"
+      "Generated JSONL file with - 590 max words, 200 samples - at ../dataset/gen-word-590-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1480 max words - at ../dataset/shuffle-word-1480-count.jsonl\n"
+      "Generated JSONL file with - 1400 max words, 200 samples - at ../dataset/gen-word-1400-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3995 max words - at ../dataset/shuffle-word-3995-count.jsonl\n"
+      "Generated JSONL file with - 150 max words, 100 samples - at ../dataset/gen-word-150-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1175 max words - at ../dataset/shuffle-word-1175-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3955 max words - at ../dataset/shuffle-word-3955-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1675 max words - at ../dataset/shuffle-word-1675-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2990 max words - at ../dataset/shuffle-word-2990-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3315 max words - at ../dataset/shuffle-word-3315-count.jsonl\n"
+      "Generated JSONL file with - 595 max words, 200 samples - at ../dataset/gen-word-595-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2300 max words, 200 samples - at ../dataset/gen-word-2300-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3935 max words - at ../dataset/shuffle-word-3935-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 965 max words, 200 samples - at ../dataset/gen-word-965-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1960 max words - at ../dataset/shuffle-word-1960-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3145 max words - at ../dataset/shuffle-word-3145-count.jsonl\n"
+      "Generated a single JSONL file with 37 samples (20 token repeat) - 2450 max words - at ../dataset/shuffle-word-2450-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 565 max words, 200 samples - at ../dataset/gen-word-565-count.jsonl\n"
+      "Generated a single JSONL file with 9 samples (1 token repeat) - 280 max words - at ../dataset/shuffle-word-280-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1300 max words, 200 samples - at ../dataset/gen-word-1300-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1505 max words - at ../dataset/shuffle-word-1505-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1105 max words, 200 samples - at ../dataset/gen-word-1105-count.jsonl\n"
+      "Generated JSONL file with - 1405 max words, 200 samples - at ../dataset/gen-word-1405-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 24 samples (20 token repeat) - 2695 max words - at ../dataset/shuffle-word-2695-count.jsonl\n"
+      "Generated JSONL file with - 3050 max words, 200 samples - at ../dataset/gen-word-3050-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1935 max words - at ../dataset/shuffle-word-1935-count.jsonl\n"
+      "Generated a single JSONL file with 64 samples (20 token repeat) - 815 max words - at ../dataset/shuffle-word-815-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1890 max words, 200 samples - at ../dataset/gen-word-1890-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1525 max words - at ../dataset/shuffle-word-1525-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 65 samples (20 token repeat) - 880 max words - at ../dataset/shuffle-word-880-count.jsonl\n"
+      "Generated a single JSONL file with 39 samples (20 token repeat) - 2315 max words - at ../dataset/shuffle-word-2315-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2255 max words - at ../dataset/shuffle-word-2255-count.jsonl\n"
+      "Generated a single JSONL file with 38 samples (20 token repeat) - 2480 max words - at ../dataset/shuffle-word-2480-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1180 max words - at ../dataset/shuffle-word-1180-count.jsonl\n"
+      "Generated a single JSONL file with 39 samples (20 token repeat) - 2440 max words - at ../dataset/shuffle-word-2440-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1465 max words, 200 samples - at ../dataset/gen-word-1465-count.jsonl\n"
+      "Generated JSONL file with - 900 max words, 200 samples - at ../dataset/gen-word-900-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 35 samples (20 token repeat) - 2485 max words - at ../dataset/shuffle-word-2485-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2280 max words - at ../dataset/shuffle-word-2280-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 25 samples (20 token repeat) - 2685 max words - at ../dataset/shuffle-word-2685-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2130 max words - at ../dataset/shuffle-word-2130-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 49 samples (20 token repeat) - 1250 max words - at ../dataset/shuffle-word-1250-count.jsonl\n"
+      "Generated JSONL file with - 1620 max words, 200 samples - at ../dataset/gen-word-1620-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1010 max words, 200 samples - at ../dataset/gen-word-1010-count.jsonl\n"
+      "Generated a single JSONL file with 81 samples (20 token repeat) - 665 max words - at ../dataset/shuffle-word-665-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 595 max words, 200 samples - at ../dataset/gen-word-595-count.jsonl\n"
+      "Generated JSONL file with - 935 max words, 200 samples - at ../dataset/gen-word-935-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2050 max words - at ../dataset/shuffle-word-2050-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3150 max words - at ../dataset/shuffle-word-3150-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 280 max words, 100 samples - at ../dataset/gen-word-280-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1600 max words - at ../dataset/shuffle-word-1600-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 59 samples (20 token repeat) - 1140 max words - at ../dataset/shuffle-word-1140-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2290 max words - at ../dataset/shuffle-word-2290-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 38 samples (20 token repeat) - 2360 max words - at ../dataset/shuffle-word-2360-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1610 max words - at ../dataset/shuffle-word-1610-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 860 max words, 200 samples - at ../dataset/gen-word-860-count.jsonl\n"
+      "Generated JSONL file with - 305 max words, 100 samples - at ../dataset/gen-word-305-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2045 max words - at ../dataset/shuffle-word-2045-count.jsonl\n"
+      "Generated JSONL file with - 475 max words, 100 samples - at ../dataset/gen-word-475-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3160 max words - at ../dataset/shuffle-word-3160-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 755 max words - at ../dataset/shuffle-word-755-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2265 max words - at ../dataset/shuffle-word-2265-count.jsonl\n"
+      "Generated JSONL file with - 1545 max words, 200 samples - at ../dataset/gen-word-1545-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1485 max words, 200 samples - at ../dataset/gen-word-1485-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2220 max words - at ../dataset/shuffle-word-2220-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 25 samples (20 token repeat) - 2640 max words - at ../dataset/shuffle-word-2640-count.jsonl\n"
+      "Generated JSONL file with - 755 max words, 200 samples - at ../dataset/gen-word-755-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1100 max words - at ../dataset/shuffle-word-1100-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2705 max words - at ../dataset/shuffle-word-2705-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1185 max words - at ../dataset/shuffle-word-1185-count.jsonl\n"
+      "Generated JSONL file with - 675 max words, 200 samples - at ../dataset/gen-word-675-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1615 max words - at ../dataset/shuffle-word-1615-count.jsonl\n"
+      "Generated JSONL file with - 810 max words, 200 samples - at ../dataset/gen-word-810-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3755 max words - at ../dataset/shuffle-word-3755-count.jsonl\n"
+      "Generated JSONL file with - 1785 max words, 200 samples - at ../dataset/gen-word-1785-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 790 max words, 200 samples - at ../dataset/gen-word-790-count.jsonl\n"
+      "Generated JSONL file with - 285 max words, 100 samples - at ../dataset/gen-word-285-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3765 max words - at ../dataset/shuffle-word-3765-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 950 max words - at ../dataset/shuffle-word-950-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3830 max words - at ../dataset/shuffle-word-3830-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3870 max words - at ../dataset/shuffle-word-3870-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3850 max words - at ../dataset/shuffle-word-3850-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2330 max words - at ../dataset/shuffle-word-2330-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 605 max words - at ../dataset/shuffle-word-605-count.jsonl\n"
+      "Generated JSONL file with - 1030 max words, 200 samples - at ../dataset/gen-word-1030-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1575 max words - at ../dataset/shuffle-word-1575-count.jsonl\n"
+      "Generated JSONL file with - 1935 max words, 200 samples - at ../dataset/gen-word-1935-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 695 max words, 200 samples - at ../dataset/gen-word-695-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2835 max words - at ../dataset/shuffle-word-2835-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3550 max words - at ../dataset/shuffle-word-3550-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3915 max words - at ../dataset/shuffle-word-3915-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 23 samples (20 token repeat) - 2670 max words - at ../dataset/shuffle-word-2670-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1185 max words - at ../dataset/shuffle-word-1185-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3610 max words - at ../dataset/shuffle-word-3610-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 915 max words - at ../dataset/shuffle-word-915-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1440 max words, 200 samples - at ../dataset/gen-word-1440-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2150 max words - at ../dataset/shuffle-word-2150-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 51 samples (20 token repeat) - 1230 max words - at ../dataset/shuffle-word-1230-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2770 max words - at ../dataset/shuffle-word-2770-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2905 max words - at ../dataset/shuffle-word-2905-count.jsonl\n"
+      "Generated JSONL file with - 1445 max words, 200 samples - at ../dataset/gen-word-1445-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2895 max words - at ../dataset/shuffle-word-2895-count.jsonl\n"
+      "Generated JSONL file with - 1970 max words, 200 samples - at ../dataset/gen-word-1970-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1850 max words - at ../dataset/shuffle-word-1850-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3165 max words - at ../dataset/shuffle-word-3165-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1200 max words, 200 samples - at ../dataset/gen-word-1200-count.jsonl\n"
+      "Generated JSONL file with - 1420 max words, 200 samples - at ../dataset/gen-word-1420-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1715 max words - at ../dataset/shuffle-word-1715-count.jsonl\n"
+      "Generated JSONL file with - 1540 max words, 200 samples - at ../dataset/gen-word-1540-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2220 max words - at ../dataset/shuffle-word-2220-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2825 max words - at ../dataset/shuffle-word-2825-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 940 max words, 200 samples - at ../dataset/gen-word-940-count.jsonl\n"
+      "Generated JSONL file with - 1530 max words, 200 samples - at ../dataset/gen-word-1530-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 53 samples (20 token repeat) - 1215 max words - at ../dataset/shuffle-word-1215-count.jsonl\n"
+      "Generated a single JSONL file with 29 samples (20 token repeat) - 2565 max words - at ../dataset/shuffle-word-2565-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3240 max words - at ../dataset/shuffle-word-3240-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2270 max words - at ../dataset/shuffle-word-2270-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 920 max words - at ../dataset/shuffle-word-920-count.jsonl\n"
+      "Generated JSONL file with - 850 max words, 200 samples - at ../dataset/gen-word-850-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 560 max words, 200 samples - at ../dataset/gen-word-560-count.jsonl\n"
+      "Generated a single JSONL file with 99 samples (20 token repeat) - 535 max words - at ../dataset/shuffle-word-535-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1930 max words, 200 samples - at ../dataset/gen-word-1930-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 990 max words - at ../dataset/shuffle-word-990-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 22 samples (20 token repeat) - 2715 max words - at ../dataset/shuffle-word-2715-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1305 max words - at ../dataset/shuffle-word-1305-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 5 samples (1 token repeat) - 470 max words - at ../dataset/shuffle-word-470-count.jsonl\n"
+      "Generated a single JSONL file with 38 samples (20 token repeat) - 2435 max words - at ../dataset/shuffle-word-2435-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2965 max words - at ../dataset/shuffle-word-2965-count.jsonl\n"
+      "Generated a single JSONL file with 33 samples (20 token repeat) - 2580 max words - at ../dataset/shuffle-word-2580-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1065 max words, 200 samples - at ../dataset/gen-word-1065-count.jsonl\n"
+      "Generated a single JSONL file with 30 samples (20 token repeat) - 2525 max words - at ../dataset/shuffle-word-2525-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2030 max words - at ../dataset/shuffle-word-2030-count.jsonl\n"
+      "Generated JSONL file with - 390 max words, 100 samples - at ../dataset/gen-word-390-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1335 max words, 200 samples - at ../dataset/gen-word-1335-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2005 max words - at ../dataset/shuffle-word-2005-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1410 max words, 200 samples - at ../dataset/gen-word-1410-count.jsonl\n"
+      "Generated JSONL file with - 750 max words, 200 samples - at ../dataset/gen-word-750-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 745 max words, 200 samples - at ../dataset/gen-word-745-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 490 max words - at ../dataset/shuffle-word-490-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3670 max words - at ../dataset/shuffle-word-3670-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3205 max words - at ../dataset/shuffle-word-3205-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3985 max words - at ../dataset/shuffle-word-3985-count.jsonl\n"
+      "Generated JSONL file with - 340 max words, 100 samples - at ../dataset/gen-word-340-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3740 max words - at ../dataset/shuffle-word-3740-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2260 max words - at ../dataset/shuffle-word-2260-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2015 max words, 200 samples - at ../dataset/gen-word-2015-count.jsonl\n"
+      "Generated JSONL file with - 2795 max words, 200 samples - at ../dataset/gen-word-2795-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 41 samples (20 token repeat) - 1350 max words - at ../dataset/shuffle-word-1350-count.jsonl\n"
+      "Generated a single JSONL file with 22 samples (20 token repeat) - 2780 max words - at ../dataset/shuffle-word-2780-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 37 samples (20 token repeat) - 2415 max words - at ../dataset/shuffle-word-2415-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 965 max words - at ../dataset/shuffle-word-965-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3885 max words - at ../dataset/shuffle-word-3885-count.jsonl\n"
+      "Generated JSONL file with - 1780 max words, 200 samples - at ../dataset/gen-word-1780-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1910 max words, 200 samples - at ../dataset/gen-word-1910-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2040 max words - at ../dataset/shuffle-word-2040-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 530 max words, 200 samples - at ../dataset/gen-word-530-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1645 max words - at ../dataset/shuffle-word-1645-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1650 max words - at ../dataset/shuffle-word-1650-count.jsonl\n"
+      "Generated JSONL file with - 535 max words, 200 samples - at ../dataset/gen-word-535-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2150 max words - at ../dataset/shuffle-word-2150-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2215 max words - at ../dataset/shuffle-word-2215-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1680 max words, 200 samples - at ../dataset/gen-word-1680-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1930 max words - at ../dataset/shuffle-word-1930-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2145 max words - at ../dataset/shuffle-word-2145-count.jsonl\n"
+      "Generated JSONL file with - 1550 max words, 200 samples - at ../dataset/gen-word-1550-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 915 max words - at ../dataset/shuffle-word-915-count.jsonl\n"
+      "Generated a single JSONL file with 24 samples (20 token repeat) - 2690 max words - at ../dataset/shuffle-word-2690-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1425 max words, 200 samples - at ../dataset/gen-word-1425-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2285 max words - at ../dataset/shuffle-word-2285-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3770 max words - at ../dataset/shuffle-word-3770-count.jsonl\n"
+      "Generated a single JSONL file with 29 samples (20 token repeat) - 2520 max words - at ../dataset/shuffle-word-2520-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2020 max words - at ../dataset/shuffle-word-2020-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 655 max words - at ../dataset/shuffle-word-655-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3480 max words - at ../dataset/shuffle-word-3480-count.jsonl\n"
+      "Generated JSONL file with - 2100 max words, 200 samples - at ../dataset/gen-word-2100-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2250 max words - at ../dataset/shuffle-word-2250-count.jsonl\n"
+      "Generated JSONL file with - 635 max words, 200 samples - at ../dataset/gen-word-635-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2200 max words - at ../dataset/shuffle-word-2200-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2255 max words - at ../dataset/shuffle-word-2255-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1875 max words - at ../dataset/shuffle-word-1875-count.jsonl\n"
+      "Generated a single JSONL file with 58 samples (20 token repeat) - 1105 max words - at ../dataset/shuffle-word-1105-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1780 max words - at ../dataset/shuffle-word-1780-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3795 max words - at ../dataset/shuffle-word-3795-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 405 max words, 100 samples - at ../dataset/gen-word-405-count.jsonl\n"
+      "Generated a single JSONL file with 36 samples (20 token repeat) - 2475 max words - at ../dataset/shuffle-word-2475-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1865 max words - at ../dataset/shuffle-word-1865-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3345 max words - at ../dataset/shuffle-word-3345-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3745 max words - at ../dataset/shuffle-word-3745-count.jsonl\n"
+      "Generated JSONL file with - 1630 max words, 200 samples - at ../dataset/gen-word-1630-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2000 max words - at ../dataset/shuffle-word-2000-count.jsonl\n"
+      "Generated JSONL file with - 1795 max words, 200 samples - at ../dataset/gen-word-1795-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 495 max words, 100 samples - at ../dataset/gen-word-495-count.jsonl\n"
+      "Generated a single JSONL file with 25 samples (20 token repeat) - 2670 max words - at ../dataset/shuffle-word-2670-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3870 max words - at ../dataset/shuffle-word-3870-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2860 max words - at ../dataset/shuffle-word-2860-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2005 max words - at ../dataset/shuffle-word-2005-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3520 max words - at ../dataset/shuffle-word-3520-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1845 max words, 200 samples - at ../dataset/gen-word-1845-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3735 max words - at ../dataset/shuffle-word-3735-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1270 max words, 200 samples - at ../dataset/gen-word-1270-count.jsonl\n"
+      "Generated JSONL file with - 1230 max words, 200 samples - at ../dataset/gen-word-1230-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2120 max words - at ../dataset/shuffle-word-2120-count.jsonl\n"
+      "Generated JSONL file with - 385 max words, 100 samples - at ../dataset/gen-word-385-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 550 max words, 200 samples - at ../dataset/gen-word-550-count.jsonl\n"
+      "Generated a single JSONL file with 22 samples (20 token repeat) - 2620 max words - at ../dataset/shuffle-word-2620-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3990 max words - at ../dataset/shuffle-word-3990-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2375 max words - at ../dataset/shuffle-word-2375-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3680 max words - at ../dataset/shuffle-word-3680-count.jsonl\n"
+      "Generated JSONL file with - 3055 max words, 200 samples - at ../dataset/gen-word-3055-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2670 max words, 200 samples - at ../dataset/gen-word-2670-count.jsonl\n"
+      "Generated a single JSONL file with 15 samples (1 token repeat) - 150 max words - at ../dataset/shuffle-word-150-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3800 max words - at ../dataset/shuffle-word-3800-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2275 max words - at ../dataset/shuffle-word-2275-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 23 samples (20 token repeat) - 2615 max words - at ../dataset/shuffle-word-2615-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2805 max words - at ../dataset/shuffle-word-2805-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3970 max words - at ../dataset/shuffle-word-3970-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1945 max words - at ../dataset/shuffle-word-1945-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 905 max words, 200 samples - at ../dataset/gen-word-905-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2345 max words - at ../dataset/shuffle-word-2345-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1305 max words - at ../dataset/shuffle-word-1305-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2235 max words - at ../dataset/shuffle-word-2235-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1745 max words - at ../dataset/shuffle-word-1745-count.jsonl\n"
+      "Generated a single JSONL file with 32 samples (20 token repeat) - 2560 max words - at ../dataset/shuffle-word-2560-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1540 max words, 200 samples - at ../dataset/gen-word-1540-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2055 max words - at ../dataset/shuffle-word-2055-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1850 max words, 200 samples - at ../dataset/gen-word-1850-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2355 max words - at ../dataset/shuffle-word-2355-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1925 max words, 200 samples - at ../dataset/gen-word-1925-count.jsonl\n"
+      "Generated a single JSONL file with 14 samples (1 token repeat) - 195 max words - at ../dataset/shuffle-word-195-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1845 max words - at ../dataset/shuffle-word-1845-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3480 max words - at ../dataset/shuffle-word-3480-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1600 max words, 200 samples - at ../dataset/gen-word-1600-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 620 max words - at ../dataset/shuffle-word-620-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1080 max words, 200 samples - at ../dataset/gen-word-1080-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2810 max words - at ../dataset/shuffle-word-2810-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1830 max words, 200 samples - at ../dataset/gen-word-1830-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 980 max words - at ../dataset/shuffle-word-980-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1310 max words - at ../dataset/shuffle-word-1310-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3075 max words - at ../dataset/shuffle-word-3075-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1825 max words, 200 samples - at ../dataset/gen-word-1825-count.jsonl\n"
+      "Generated a single JSONL file with 32 samples (20 token repeat) - 2510 max words - at ../dataset/shuffle-word-2510-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1410 max words - at ../dataset/shuffle-word-1410-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2750 max words - at ../dataset/shuffle-word-2750-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1820 max words, 200 samples - at ../dataset/gen-word-1820-count.jsonl\n"
+      "Generated a single JSONL file with 36 samples (20 token repeat) - 2405 max words - at ../dataset/shuffle-word-2405-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1030 max words, 200 samples - at ../dataset/gen-word-1030-count.jsonl\n"
+      "Generated a single JSONL file with 7 samples (1 token repeat) - 320 max words - at ../dataset/shuffle-word-320-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2130 max words - at ../dataset/shuffle-word-2130-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3445 max words - at ../dataset/shuffle-word-3445-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1475 max words - at ../dataset/shuffle-word-1475-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2905 max words - at ../dataset/shuffle-word-2905-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3600 max words - at ../dataset/shuffle-word-3600-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2305 max words - at ../dataset/shuffle-word-2305-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1425 max words - at ../dataset/shuffle-word-1425-count.jsonl\n"
+      "Generated a single JSONL file with 26 samples (20 token repeat) - 2680 max words - at ../dataset/shuffle-word-2680-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2360 max words, 200 samples - at ../dataset/gen-word-2360-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2210 max words - at ../dataset/shuffle-word-2210-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1035 max words, 200 samples - at ../dataset/gen-word-1035-count.jsonl\n"
+      "Generated a single JSONL file with 63 samples (20 token repeat) - 830 max words - at ../dataset/shuffle-word-830-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 910 max words, 200 samples - at ../dataset/gen-word-910-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2095 max words - at ../dataset/shuffle-word-2095-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1325 max words - at ../dataset/shuffle-word-1325-count.jsonl\n"
+      "Generated JSONL file with - 1535 max words, 200 samples - at ../dataset/gen-word-1535-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2790 max words - at ../dataset/shuffle-word-2790-count.jsonl\n"
+      "Generated JSONL file with - 1490 max words, 200 samples - at ../dataset/gen-word-1490-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1670 max words - at ../dataset/shuffle-word-1670-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2300 max words - at ../dataset/shuffle-word-2300-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1885 max words, 200 samples - at ../dataset/gen-word-1885-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2245 max words - at ../dataset/shuffle-word-2245-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1800 max words - at ../dataset/shuffle-word-1800-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2910 max words - at ../dataset/shuffle-word-2910-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2175 max words - at ../dataset/shuffle-word-2175-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2110 max words - at ../dataset/shuffle-word-2110-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 555 max words, 200 samples - at ../dataset/gen-word-555-count.jsonl\n"
+      "Generated JSONL file with - 1885 max words, 200 samples - at ../dataset/gen-word-1885-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 1195 max words - at ../dataset/shuffle-word-1195-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1910 max words - at ../dataset/shuffle-word-1910-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1905 max words - at ../dataset/shuffle-word-1905-count.jsonl\n"
+      "Generated JSONL file with - 2605 max words, 200 samples - at ../dataset/gen-word-2605-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1500 max words, 200 samples - at ../dataset/gen-word-1500-count.jsonl\n"
+      "Generated a single JSONL file with 33 samples (20 token repeat) - 2505 max words - at ../dataset/shuffle-word-2505-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2155 max words - at ../dataset/shuffle-word-2155-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3925 max words - at ../dataset/shuffle-word-3925-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 980 max words, 200 samples - at ../dataset/gen-word-980-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3185 max words - at ../dataset/shuffle-word-3185-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2535 max words, 200 samples - at ../dataset/gen-word-2535-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 705 max words - at ../dataset/shuffle-word-705-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2195 max words - at ../dataset/shuffle-word-2195-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2030 max words - at ../dataset/shuffle-word-2030-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1605 max words, 200 samples - at ../dataset/gen-word-1605-count.jsonl\n"
+      "Generated a single JSONL file with 36 samples (20 token repeat) - 2415 max words - at ../dataset/shuffle-word-2415-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1225 max words, 200 samples - at ../dataset/gen-word-1225-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1860 max words - at ../dataset/shuffle-word-1860-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2225 max words - at ../dataset/shuffle-word-2225-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3250 max words - at ../dataset/shuffle-word-3250-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1765 max words - at ../dataset/shuffle-word-1765-count.jsonl\n"
+      "Generated JSONL file with - 2980 max words, 200 samples - at ../dataset/gen-word-2980-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1720 max words, 200 samples - at ../dataset/gen-word-1720-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1050 max words - at ../dataset/shuffle-word-1050-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1290 max words, 200 samples - at ../dataset/gen-word-1290-count.jsonl\n"
+      "Generated JSONL file with - 1425 max words, 200 samples - at ../dataset/gen-word-1425-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 410 max words, 100 samples - at ../dataset/gen-word-410-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3200 max words - at ../dataset/shuffle-word-3200-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1585 max words - at ../dataset/shuffle-word-1585-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2390 max words - at ../dataset/shuffle-word-2390-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3435 max words - at ../dataset/shuffle-word-3435-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1715 max words - at ../dataset/shuffle-word-1715-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 685 max words, 200 samples - at ../dataset/gen-word-685-count.jsonl\n"
+      "Generated a single JSONL file with 39 samples (20 token repeat) - 2310 max words - at ../dataset/shuffle-word-2310-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2040 max words - at ../dataset/shuffle-word-2040-count.jsonl\n"
+      "Generated a single JSONL file with 23 samples (20 token repeat) - 2685 max words - at ../dataset/shuffle-word-2685-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1245 max words, 200 samples - at ../dataset/gen-word-1245-count.jsonl\n"
+      "Generated a single JSONL file with 32 samples (20 token repeat) - 2555 max words - at ../dataset/shuffle-word-2555-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1490 max words, 200 samples - at ../dataset/gen-word-1490-count.jsonl\n"
+      "Generated a single JSONL file with 34 samples (20 token repeat) - 2455 max words - at ../dataset/shuffle-word-2455-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 23 samples (20 token repeat) - 2645 max words - at ../dataset/shuffle-word-2645-count.jsonl\n"
+      "Generated JSONL file with - 1160 max words, 200 samples - at ../dataset/gen-word-1160-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1130 max words, 200 samples - at ../dataset/gen-word-1130-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3565 max words - at ../dataset/shuffle-word-3565-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1050 max words, 200 samples - at ../dataset/gen-word-1050-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2925 max words - at ../dataset/shuffle-word-2925-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2980 max words - at ../dataset/shuffle-word-2980-count.jsonl\n"
+      "Generated a single JSONL file with 67 samples (20 token repeat) - 880 max words - at ../dataset/shuffle-word-880-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 23 samples (20 token repeat) - 2770 max words - at ../dataset/shuffle-word-2770-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3725 max words - at ../dataset/shuffle-word-3725-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2025 max words - at ../dataset/shuffle-word-2025-count.jsonl\n"
+      "Generated a single JSONL file with 6 samples (1 token repeat) - 460 max words - at ../dataset/shuffle-word-460-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2070 max words - at ../dataset/shuffle-word-2070-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2380 max words - at ../dataset/shuffle-word-2380-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 62 samples (20 token repeat) - 815 max words - at ../dataset/shuffle-word-815-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3105 max words - at ../dataset/shuffle-word-3105-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3510 max words - at ../dataset/shuffle-word-3510-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3690 max words - at ../dataset/shuffle-word-3690-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 7 samples (1 token repeat) - 380 max words - at ../dataset/shuffle-word-380-count.jsonl\n"
+      "Generated JSONL file with - 2060 max words, 200 samples - at ../dataset/gen-word-2060-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1355 max words, 200 samples - at ../dataset/gen-word-1355-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3240 max words - at ../dataset/shuffle-word-3240-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1925 max words - at ../dataset/shuffle-word-1925-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3410 max words - at ../dataset/shuffle-word-3410-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2355 max words - at ../dataset/shuffle-word-2355-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 770 max words - at ../dataset/shuffle-word-770-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2915 max words - at ../dataset/shuffle-word-2915-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2950 max words - at ../dataset/shuffle-word-2950-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2305 max words, 200 samples - at ../dataset/gen-word-2305-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3040 max words - at ../dataset/shuffle-word-3040-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1475 max words, 200 samples - at ../dataset/gen-word-1475-count.jsonl\n"
+      "Generated JSONL file with - 1090 max words, 200 samples - at ../dataset/gen-word-1090-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1610 max words - at ../dataset/shuffle-word-1610-count.jsonl\n"
+      "Generated a single JSONL file with 30 samples (20 token repeat) - 2590 max words - at ../dataset/shuffle-word-2590-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1060 max words, 200 samples - at ../dataset/gen-word-1060-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3125 max words - at ../dataset/shuffle-word-3125-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1900 max words - at ../dataset/shuffle-word-1900-count.jsonl\n"
+      "Generated JSONL file with - 1595 max words, 200 samples - at ../dataset/gen-word-1595-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1320 max words, 200 samples - at ../dataset/gen-word-1320-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3375 max words - at ../dataset/shuffle-word-3375-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1820 max words - at ../dataset/shuffle-word-1820-count.jsonl\n"
+      "Generated JSONL file with - 1710 max words, 200 samples - at ../dataset/gen-word-1710-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2200 max words, 200 samples - at ../dataset/gen-word-2200-count.jsonl\n"
+      "Generated JSONL file with - 840 max words, 200 samples - at ../dataset/gen-word-840-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2090 max words - at ../dataset/shuffle-word-2090-count.jsonl\n"
+      "Generated a single JSONL file with 24 samples (20 token repeat) - 2650 max words - at ../dataset/shuffle-word-2650-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1735 max words - at ../dataset/shuffle-word-1735-count.jsonl\n"
+      "Generated a single JSONL file with 22 samples (20 token repeat) - 2630 max words - at ../dataset/shuffle-word-2630-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3330 max words - at ../dataset/shuffle-word-3330-count.jsonl\n"
+      "Generated a single JSONL file with 27 samples (20 token repeat) - 2645 max words - at ../dataset/shuffle-word-2645-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1955 max words - at ../dataset/shuffle-word-1955-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2945 max words - at ../dataset/shuffle-word-2945-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 24 samples (20 token repeat) - 2650 max words - at ../dataset/shuffle-word-2650-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1995 max words - at ../dataset/shuffle-word-1995-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1000 max words, 200 samples - at ../dataset/gen-word-1000-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3635 max words - at ../dataset/shuffle-word-3635-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1380 max words, 200 samples - at ../dataset/gen-word-1380-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2960 max words - at ../dataset/shuffle-word-2960-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1565 max words, 200 samples - at ../dataset/gen-word-1565-count.jsonl\n"
+      "Generated JSONL file with - 2775 max words, 200 samples - at ../dataset/gen-word-2775-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1480 max words, 200 samples - at ../dataset/gen-word-1480-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3850 max words - at ../dataset/shuffle-word-3850-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2005 max words, 200 samples - at ../dataset/gen-word-2005-count.jsonl\n"
+      "Generated a single JSONL file with 81 samples (20 token repeat) - 690 max words - at ../dataset/shuffle-word-690-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3320 max words - at ../dataset/shuffle-word-3320-count.jsonl\n"
+      "Generated JSONL file with - 1975 max words, 200 samples - at ../dataset/gen-word-1975-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2135 max words, 200 samples - at ../dataset/gen-word-2135-count.jsonl\n"
+      "Generated a single JSONL file with 24 samples (20 token repeat) - 2640 max words - at ../dataset/shuffle-word-2640-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1620 max words - at ../dataset/shuffle-word-1620-count.jsonl\n"
+      "Generated JSONL file with - 1625 max words, 200 samples - at ../dataset/gen-word-1625-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 22 samples (20 token repeat) - 2760 max words - at ../dataset/shuffle-word-2760-count.jsonl\n"
+      "Generated a single JSONL file with 81 samples (20 token repeat) - 700 max words - at ../dataset/shuffle-word-700-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3535 max words - at ../dataset/shuffle-word-3535-count.jsonl\n"
+      "Generated a single JSONL file with 16 samples (1 token repeat) - 140 max words - at ../dataset/shuffle-word-140-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2085 max words, 200 samples - at ../dataset/gen-word-2085-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2195 max words - at ../dataset/shuffle-word-2195-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 62 samples (20 token repeat) - 850 max words - at ../dataset/shuffle-word-850-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 935 max words - at ../dataset/shuffle-word-935-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 81 samples (20 token repeat) - 685 max words - at ../dataset/shuffle-word-685-count.jsonl\n"
+      "Generated a single JSONL file with 21 samples (20 token repeat) - 2740 max words - at ../dataset/shuffle-word-2740-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1490 max words - at ../dataset/shuffle-word-1490-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3255 max words - at ../dataset/shuffle-word-3255-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3360 max words - at ../dataset/shuffle-word-3360-count.jsonl\n"
+      "Generated a single JSONL file with 23 samples (20 token repeat) - 2695 max words - at ../dataset/shuffle-word-2695-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1495 max words - at ../dataset/shuffle-word-1495-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2065 max words - at ../dataset/shuffle-word-2065-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2035 max words, 200 samples - at ../dataset/gen-word-2035-count.jsonl\n"
+      "Generated a single JSONL file with 29 samples (20 token repeat) - 2600 max words - at ../dataset/shuffle-word-2600-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1725 max words, 200 samples - at ../dataset/gen-word-1725-count.jsonl\n"
+      "Generated a single JSONL file with 23 samples (20 token repeat) - 2605 max words - at ../dataset/shuffle-word-2605-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2385 max words - at ../dataset/shuffle-word-2385-count.jsonl\n"
+      "Generated a single JSONL file with 39 samples (20 token repeat) - 2500 max words - at ../dataset/shuffle-word-2500-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1420 max words - at ../dataset/shuffle-word-1420-count.jsonl\n"
+      "Generated JSONL file with - 1750 max words, 200 samples - at ../dataset/gen-word-1750-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 30 samples (20 token repeat) - 2545 max words - at ../dataset/shuffle-word-2545-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3160 max words - at ../dataset/shuffle-word-3160-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1900 max words, 200 samples - at ../dataset/gen-word-1900-count.jsonl\n"
+      "Generated JSONL file with - 645 max words, 200 samples - at ../dataset/gen-word-645-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2420 max words, 200 samples - at ../dataset/gen-word-2420-count.jsonl\n"
+      "Generated JSONL file with - 1875 max words, 200 samples - at ../dataset/gen-word-1875-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3840 max words - at ../dataset/shuffle-word-3840-count.jsonl\n"
+      "Generated a single JSONL file with 29 samples (20 token repeat) - 2585 max words - at ../dataset/shuffle-word-2585-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3030 max words - at ../dataset/shuffle-word-3030-count.jsonl\n"
+      "Generated a single JSONL file with 39 samples (20 token repeat) - 2325 max words - at ../dataset/shuffle-word-2325-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2165 max words - at ../dataset/shuffle-word-2165-count.jsonl\n"
+      "Generated JSONL file with - 1210 max words, 200 samples - at ../dataset/gen-word-1210-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2025 max words, 200 samples - at ../dataset/gen-word-2025-count.jsonl\n"
+      "Generated a single JSONL file with 26 samples (20 token repeat) - 2550 max words - at ../dataset/shuffle-word-2550-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 985 max words, 200 samples - at ../dataset/gen-word-985-count.jsonl\n"
+      "Generated a single JSONL file with 39 samples (20 token repeat) - 2335 max words - at ../dataset/shuffle-word-2335-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1835 max words, 200 samples - at ../dataset/gen-word-1835-count.jsonl\n"
+      "Generated a single JSONL file with 81 samples (20 token repeat) - 610 max words - at ../dataset/shuffle-word-610-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 60 samples (20 token repeat) - 925 max words - at ../dataset/shuffle-word-925-count.jsonl\n"
+      "Generated JSONL file with - 1960 max words, 200 samples - at ../dataset/gen-word-1960-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1505 max words, 200 samples - at ../dataset/gen-word-1505-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2250 max words - at ../dataset/shuffle-word-2250-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3285 max words, 200 samples - at ../dataset/gen-word-3285-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2105 max words - at ../dataset/shuffle-word-2105-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1790 max words - at ../dataset/shuffle-word-1790-count.jsonl\n"
+      "Generated a single JSONL file with 28 samples (20 token repeat) - 2535 max words - at ../dataset/shuffle-word-2535-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2090 max words, 200 samples - at ../dataset/gen-word-2090-count.jsonl\n"
+      "Generated JSONL file with - 1430 max words, 200 samples - at ../dataset/gen-word-1430-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1125 max words, 200 samples - at ../dataset/gen-word-1125-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3455 max words - at ../dataset/shuffle-word-3455-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3820 max words - at ../dataset/shuffle-word-3820-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2185 max words - at ../dataset/shuffle-word-2185-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2190 max words - at ../dataset/shuffle-word-2190-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3020 max words - at ../dataset/shuffle-word-3020-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2490 max words, 200 samples - at ../dataset/gen-word-2490-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2090 max words - at ../dataset/shuffle-word-2090-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 39 samples (20 token repeat) - 2340 max words - at ../dataset/shuffle-word-2340-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2190 max words - at ../dataset/shuffle-word-2190-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2840 max words - at ../dataset/shuffle-word-2840-count.jsonl\n"
+      "Generated a single JSONL file with 21 samples (20 token repeat) - 2725 max words - at ../dataset/shuffle-word-2725-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2265 max words, 200 samples - at ../dataset/gen-word-2265-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2955 max words - at ../dataset/shuffle-word-2955-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 920 max words, 200 samples - at ../dataset/gen-word-920-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2940 max words - at ../dataset/shuffle-word-2940-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2125 max words - at ../dataset/shuffle-word-2125-count.jsonl\n"
+      "Generated a single JSONL file with 24 samples (20 token repeat) - 2610 max words - at ../dataset/shuffle-word-2610-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2400 max words - at ../dataset/shuffle-word-2400-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2365 max words - at ../dataset/shuffle-word-2365-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1015 max words, 200 samples - at ../dataset/gen-word-1015-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2935 max words - at ../dataset/shuffle-word-2935-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2080 max words, 200 samples - at ../dataset/gen-word-2080-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3175 max words - at ../dataset/shuffle-word-3175-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2045 max words, 200 samples - at ../dataset/gen-word-2045-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2840 max words - at ../dataset/shuffle-word-2840-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1760 max words, 200 samples - at ../dataset/gen-word-1760-count.jsonl\n"
+      "Generated JSONL file with - 1300 max words, 200 samples - at ../dataset/gen-word-1300-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1915 max words - at ../dataset/shuffle-word-1915-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3260 max words - at ../dataset/shuffle-word-3260-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 21 samples (20 token repeat) - 2730 max words - at ../dataset/shuffle-word-2730-count.jsonl\n"
+      "Generated JSONL file with - 745 max words, 200 samples - at ../dataset/gen-word-745-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2540 max words, 200 samples - at ../dataset/gen-word-2540-count.jsonl\n"
+      "Generated JSONL file with - 1890 max words, 200 samples - at ../dataset/gen-word-1890-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 995 max words, 200 samples - at ../dataset/gen-word-995-count.jsonl\n"
+      "Generated JSONL file with - 1605 max words, 200 samples - at ../dataset/gen-word-1605-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2055 max words - at ../dataset/shuffle-word-2055-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2395 max words - at ../dataset/shuffle-word-2395-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2295 max words - at ../dataset/shuffle-word-2295-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2880 max words - at ../dataset/shuffle-word-2880-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2365 max words - at ../dataset/shuffle-word-2365-count.jsonl\n"
+      "Generated a single JSONL file with 24 samples (20 token repeat) - 2665 max words - at ../dataset/shuffle-word-2665-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2315 max words - at ../dataset/shuffle-word-2315-count.jsonl\n"
+      "Generated JSONL file with - 1790 max words, 200 samples - at ../dataset/gen-word-1790-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1525 max words, 200 samples - at ../dataset/gen-word-1525-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2785 max words - at ../dataset/shuffle-word-2785-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1360 max words, 200 samples - at ../dataset/gen-word-1360-count.jsonl\n"
+      "Generated JSONL file with - 1350 max words, 200 samples - at ../dataset/gen-word-1350-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2160 max words - at ../dataset/shuffle-word-2160-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2875 max words - at ../dataset/shuffle-word-2875-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1920 max words - at ../dataset/shuffle-word-1920-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3895 max words - at ../dataset/shuffle-word-3895-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2615 max words, 200 samples - at ../dataset/gen-word-2615-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2045 max words - at ../dataset/shuffle-word-2045-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2280 max words - at ../dataset/shuffle-word-2280-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2845 max words - at ../dataset/shuffle-word-2845-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3340 max words - at ../dataset/shuffle-word-3340-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2320 max words - at ../dataset/shuffle-word-2320-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 39 samples (20 token repeat) - 2395 max words - at ../dataset/shuffle-word-2395-count.jsonl\n"
+      "Generated JSONL file with - 530 max words, 200 samples - at ../dataset/gen-word-530-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 29 samples (20 token repeat) - 2570 max words - at ../dataset/shuffle-word-2570-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3055 max words - at ../dataset/shuffle-word-3055-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 545 max words, 200 samples - at ../dataset/gen-word-545-count.jsonl\n"
+      "Generated JSONL file with - 1815 max words, 200 samples - at ../dataset/gen-word-1815-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 36 samples (20 token repeat) - 2465 max words - at ../dataset/shuffle-word-2465-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3005 max words - at ../dataset/shuffle-word-3005-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1760 max words - at ../dataset/shuffle-word-1760-count.jsonl\n"
+      "Generated JSONL file with - 1485 max words, 200 samples - at ../dataset/gen-word-1485-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1975 max words, 200 samples - at ../dataset/gen-word-1975-count.jsonl\n"
+      "Generated JSONL file with - 1245 max words, 200 samples - at ../dataset/gen-word-1245-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 29 samples (20 token repeat) - 2560 max words - at ../dataset/shuffle-word-2560-count.jsonl\n"
+      "Generated JSONL file with - 2755 max words, 200 samples - at ../dataset/gen-word-2755-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1160 max words, 200 samples - at ../dataset/gen-word-1160-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3245 max words - at ../dataset/shuffle-word-3245-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2290 max words - at ../dataset/shuffle-word-2290-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2980 max words - at ../dataset/shuffle-word-2980-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2130 max words, 200 samples - at ../dataset/gen-word-2130-count.jsonl\n"
+      "Generated a single JSONL file with 37 samples (20 token repeat) - 2460 max words - at ../dataset/shuffle-word-2460-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1975 max words - at ../dataset/shuffle-word-1975-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3015 max words - at ../dataset/shuffle-word-3015-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3570 max words, 200 samples - at ../dataset/gen-word-3570-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3630 max words - at ../dataset/shuffle-word-3630-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 39 samples (20 token repeat) - 2445 max words - at ../dataset/shuffle-word-2445-count.jsonl\n"
+      "Generated JSONL file with - 950 max words, 200 samples - at ../dataset/gen-word-950-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2345 max words - at ../dataset/shuffle-word-2345-count.jsonl\n"
+      "Generated a single JSONL file with 21 samples (20 token repeat) - 2760 max words - at ../dataset/shuffle-word-2760-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 36 samples (20 token repeat) - 2460 max words - at ../dataset/shuffle-word-2460-count.jsonl\n"
+      "Generated JSONL file with - 2765 max words, 200 samples - at ../dataset/gen-word-2765-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3550 max words, 200 samples - at ../dataset/gen-word-3550-count.jsonl\n"
+      "Generated JSONL file with - 2010 max words, 200 samples - at ../dataset/gen-word-2010-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2580 max words, 200 samples - at ../dataset/gen-word-2580-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2850 max words - at ../dataset/shuffle-word-2850-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2700 max words, 200 samples - at ../dataset/gen-word-2700-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2855 max words - at ../dataset/shuffle-word-2855-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 37 samples (20 token repeat) - 2405 max words - at ../dataset/shuffle-word-2405-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3710 max words - at ../dataset/shuffle-word-3710-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 31 samples (20 token repeat) - 2510 max words - at ../dataset/shuffle-word-2510-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2075 max words - at ../dataset/shuffle-word-2075-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 880 max words, 200 samples - at ../dataset/gen-word-880-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3940 max words - at ../dataset/shuffle-word-3940-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2095 max words - at ../dataset/shuffle-word-2095-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2895 max words - at ../dataset/shuffle-word-2895-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2140 max words - at ../dataset/shuffle-word-2140-count.jsonl\n"
+      "Generated JSONL file with - 1995 max words, 200 samples - at ../dataset/gen-word-1995-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2390 max words - at ../dataset/shuffle-word-2390-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2385 max words - at ../dataset/shuffle-word-2385-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1870 max words - at ../dataset/shuffle-word-1870-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 715 max words - at ../dataset/shuffle-word-715-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 820 max words, 200 samples - at ../dataset/gen-word-820-count.jsonl\n"
+      "Generated a single JSONL file with 23 samples (20 token repeat) - 2615 max words - at ../dataset/shuffle-word-2615-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1985 max words, 200 samples - at ../dataset/gen-word-1985-count.jsonl\n"
+      "Generated JSONL file with - 890 max words, 200 samples - at ../dataset/gen-word-890-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3485 max words, 200 samples - at ../dataset/gen-word-3485-count.jsonl\n"
+      "Generated JSONL file with - 975 max words, 200 samples - at ../dataset/gen-word-975-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2320 max words - at ../dataset/shuffle-word-2320-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3190 max words - at ../dataset/shuffle-word-3190-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1620 max words, 200 samples - at ../dataset/gen-word-1620-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3225 max words - at ../dataset/shuffle-word-3225-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2185 max words - at ../dataset/shuffle-word-2185-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1140 max words - at ../dataset/shuffle-word-1140-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2850 max words, 200 samples - at ../dataset/gen-word-2850-count.jsonl\n"
+      "Generated a single JSONL file with 48 samples (20 token repeat) - 1225 max words - at ../dataset/shuffle-word-1225-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 950 max words, 200 samples - at ../dataset/gen-word-950-count.jsonl\n"
+      "Generated a single JSONL file with 22 samples (20 token repeat) - 2625 max words - at ../dataset/shuffle-word-2625-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 39 samples (20 token repeat) - 2380 max words - at ../dataset/shuffle-word-2380-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2240 max words - at ../dataset/shuffle-word-2240-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1740 max words, 200 samples - at ../dataset/gen-word-1740-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2820 max words - at ../dataset/shuffle-word-2820-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1755 max words, 200 samples - at ../dataset/gen-word-1755-count.jsonl\n"
+      "Generated JSONL file with - 2800 max words, 200 samples - at ../dataset/gen-word-2800-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2275 max words - at ../dataset/shuffle-word-2275-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3315 max words - at ../dataset/shuffle-word-3315-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2270 max words - at ../dataset/shuffle-word-2270-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3555 max words - at ../dataset/shuffle-word-3555-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 21 samples (20 token repeat) - 2710 max words - at ../dataset/shuffle-word-2710-count.jsonl\n"
+      "Generated a single JSONL file with 37 samples (20 token repeat) - 2445 max words - at ../dataset/shuffle-word-2445-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2235 max words - at ../dataset/shuffle-word-2235-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2710 max words - at ../dataset/shuffle-word-2710-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2170 max words - at ../dataset/shuffle-word-2170-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2800 max words - at ../dataset/shuffle-word-2800-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2310 max words, 200 samples - at ../dataset/gen-word-2310-count.jsonl\n"
+      "Generated JSONL file with - 1140 max words, 200 samples - at ../dataset/gen-word-1140-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1580 max words, 200 samples - at ../dataset/gen-word-1580-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2930 max words - at ../dataset/shuffle-word-2930-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1535 max words, 200 samples - at ../dataset/gen-word-1535-count.jsonl\n"
+      "Generated JSONL file with - 2565 max words, 200 samples - at ../dataset/gen-word-2565-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2960 max words - at ../dataset/shuffle-word-2960-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2830 max words - at ../dataset/shuffle-word-2830-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1415 max words, 200 samples - at ../dataset/gen-word-1415-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1570 max words - at ../dataset/shuffle-word-1570-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2385 max words, 200 samples - at ../dataset/gen-word-2385-count.jsonl\n"
+      "Generated JSONL file with - 1475 max words, 200 samples - at ../dataset/gen-word-1475-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1835 max words - at ../dataset/shuffle-word-1835-count.jsonl\n"
+      "Generated JSONL file with - 1860 max words, 200 samples - at ../dataset/gen-word-1860-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 37 samples (20 token repeat) - 2470 max words - at ../dataset/shuffle-word-2470-count.jsonl\n"
+      "Generated JSONL file with - 1835 max words, 200 samples - at ../dataset/gen-word-1835-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 25 samples (20 token repeat) - 2655 max words - at ../dataset/shuffle-word-2655-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2890 max words - at ../dataset/shuffle-word-2890-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2875 max words, 200 samples - at ../dataset/gen-word-2875-count.jsonl\n"
+      "Generated JSONL file with - 685 max words, 200 samples - at ../dataset/gen-word-685-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2810 max words, 200 samples - at ../dataset/gen-word-2810-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3695 max words - at ../dataset/shuffle-word-3695-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1780 max words, 200 samples - at ../dataset/gen-word-1780-count.jsonl\n"
+      "Generated JSONL file with - 2540 max words, 200 samples - at ../dataset/gen-word-2540-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1645 max words - at ../dataset/shuffle-word-1645-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3370 max words - at ../dataset/shuffle-word-3370-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2525 max words, 200 samples - at ../dataset/gen-word-2525-count.jsonl\n"
+      "Generated JSONL file with - 1765 max words, 200 samples - at ../dataset/gen-word-1765-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2070 max words, 200 samples - at ../dataset/gen-word-2070-count.jsonl\n"
+      "Generated JSONL file with - 885 max words, 200 samples - at ../dataset/gen-word-885-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 925 max words, 200 samples - at ../dataset/gen-word-925-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3755 max words - at ../dataset/shuffle-word-3755-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2100 max words - at ../dataset/shuffle-word-2100-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2900 max words - at ../dataset/shuffle-word-2900-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2375 max words - at ../dataset/shuffle-word-2375-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3215 max words - at ../dataset/shuffle-word-3215-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1710 max words, 200 samples - at ../dataset/gen-word-1710-count.jsonl\n"
+      "Generated JSONL file with - 1515 max words, 200 samples - at ../dataset/gen-word-1515-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 21 samples (20 token repeat) - 2750 max words - at ../dataset/shuffle-word-2750-count.jsonl\n"
+      "Generated JSONL file with - 2940 max words, 200 samples - at ../dataset/gen-word-2940-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1660 max words, 200 samples - at ../dataset/gen-word-1660-count.jsonl\n"
+      "Generated a single JSONL file with 63 samples (20 token repeat) - 885 max words - at ../dataset/shuffle-word-885-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3130 max words - at ../dataset/shuffle-word-3130-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3180 max words - at ../dataset/shuffle-word-3180-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 33 samples (20 token repeat) - 2525 max words - at ../dataset/shuffle-word-2525-count.jsonl\n"
+      "Generated a single JSONL file with 44 samples (20 token repeat) - 1330 max words - at ../dataset/shuffle-word-1330-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 29 samples (20 token repeat) - 2585 max words - at ../dataset/shuffle-word-2585-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3600 max words - at ../dataset/shuffle-word-3600-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2245 max words - at ../dataset/shuffle-word-2245-count.jsonl\n"
+      "Generated a single JSONL file with 63 samples (20 token repeat) - 855 max words - at ../dataset/shuffle-word-855-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2920 max words - at ../dataset/shuffle-word-2920-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3415 max words - at ../dataset/shuffle-word-3415-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2650 max words, 200 samples - at ../dataset/gen-word-2650-count.jsonl\n"
+      "Generated JSONL file with - 1040 max words, 200 samples - at ../dataset/gen-word-1040-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1675 max words, 200 samples - at ../dataset/gen-word-1675-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3335 max words - at ../dataset/shuffle-word-3335-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 22 samples (20 token repeat) - 2630 max words - at ../dataset/shuffle-word-2630-count.jsonl\n"
+      "Generated a single JSONL file with 41 samples (20 token repeat) - 1385 max words - at ../dataset/shuffle-word-1385-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3140 max words - at ../dataset/shuffle-word-3140-count.jsonl\n"
+      "Generated JSONL file with - 1190 max words, 200 samples - at ../dataset/gen-word-1190-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2875 max words - at ../dataset/shuffle-word-2875-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3845 max words - at ../dataset/shuffle-word-3845-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3080 max words - at ../dataset/shuffle-word-3080-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3615 max words - at ../dataset/shuffle-word-3615-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2855 max words - at ../dataset/shuffle-word-2855-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3655 max words - at ../dataset/shuffle-word-3655-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1315 max words, 200 samples - at ../dataset/gen-word-1315-count.jsonl\n"
+      "Generated JSONL file with - 1870 max words, 200 samples - at ../dataset/gen-word-1870-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1950 max words - at ../dataset/shuffle-word-1950-count.jsonl\n"
+      "Generated JSONL file with - 1135 max words, 200 samples - at ../dataset/gen-word-1135-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 21 samples (20 token repeat) - 2665 max words - at ../dataset/shuffle-word-2665-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3830 max words - at ../dataset/shuffle-word-3830-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 39 samples (20 token repeat) - 2310 max words - at ../dataset/shuffle-word-2310-count.jsonl\n"
+      "Generated a single JSONL file with 23 samples (20 token repeat) - 2775 max words - at ../dataset/shuffle-word-2775-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2180 max words - at ../dataset/shuffle-word-2180-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3665 max words - at ../dataset/shuffle-word-3665-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1110 max words, 200 samples - at ../dataset/gen-word-1110-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3470 max words - at ../dataset/shuffle-word-3470-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2555 max words, 200 samples - at ../dataset/gen-word-2555-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3430 max words - at ../dataset/shuffle-word-3430-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2870 max words, 200 samples - at ../dataset/gen-word-2870-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3425 max words - at ../dataset/shuffle-word-3425-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3170 max words - at ../dataset/shuffle-word-3170-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3270 max words - at ../dataset/shuffle-word-3270-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3040 max words - at ../dataset/shuffle-word-3040-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3050 max words - at ../dataset/shuffle-word-3050-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3250 max words - at ../dataset/shuffle-word-3250-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3465 max words - at ../dataset/shuffle-word-3465-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 885 max words, 200 samples - at ../dataset/gen-word-885-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3640 max words - at ../dataset/shuffle-word-3640-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 930 max words, 200 samples - at ../dataset/gen-word-930-count.jsonl\n"
+      "Generated a single JSONL file with 80 samples (20 token repeat) - 785 max words - at ../dataset/shuffle-word-785-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2765 max words - at ../dataset/shuffle-word-2765-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3620 max words - at ../dataset/shuffle-word-3620-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1940 max words, 200 samples - at ../dataset/gen-word-1940-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3310 max words - at ../dataset/shuffle-word-3310-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3195 max words - at ../dataset/shuffle-word-3195-count.jsonl\n"
+      "Generated JSONL file with - 980 max words, 200 samples - at ../dataset/gen-word-980-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3165 max words - at ../dataset/shuffle-word-3165-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2060 max words - at ../dataset/shuffle-word-2060-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 35 samples (20 token repeat) - 2455 max words - at ../dataset/shuffle-word-2455-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3530 max words - at ../dataset/shuffle-word-3530-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2945 max words - at ../dataset/shuffle-word-2945-count.jsonl\n"
+      "Generated a single JSONL file with 59 samples (20 token repeat) - 1195 max words - at ../dataset/shuffle-word-1195-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3070 max words - at ../dataset/shuffle-word-3070-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3730 max words - at ../dataset/shuffle-word-3730-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2230 max words - at ../dataset/shuffle-word-2230-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3365 max words - at ../dataset/shuffle-word-3365-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2215 max words, 200 samples - at ../dataset/gen-word-2215-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3490 max words - at ../dataset/shuffle-word-3490-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 28 samples (20 token repeat) - 2580 max words - at ../dataset/shuffle-word-2580-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3340 max words - at ../dataset/shuffle-word-3340-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3415 max words - at ../dataset/shuffle-word-3415-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3890 max words - at ../dataset/shuffle-word-3890-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3425 max words, 200 samples - at ../dataset/gen-word-3425-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3400 max words - at ../dataset/shuffle-word-3400-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2230 max words, 200 samples - at ../dataset/gen-word-2230-count.jsonl\n"
+      "Generated JSONL file with - 2515 max words, 200 samples - at ../dataset/gen-word-2515-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2830 max words - at ../dataset/shuffle-word-2830-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3380 max words - at ../dataset/shuffle-word-3380-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1230 max words, 200 samples - at ../dataset/gen-word-1230-count.jsonl\n"
+      "Generated JSONL file with - 1920 max words, 200 samples - at ../dataset/gen-word-1920-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1870 max words, 200 samples - at ../dataset/gen-word-1870-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3330 max words - at ../dataset/shuffle-word-3330-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1560 max words, 200 samples - at ../dataset/gen-word-1560-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3390 max words - at ../dataset/shuffle-word-3390-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 23 samples (20 token repeat) - 2620 max words - at ../dataset/shuffle-word-2620-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3560 max words - at ../dataset/shuffle-word-3560-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1095 max words, 200 samples - at ../dataset/gen-word-1095-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3540 max words - at ../dataset/shuffle-word-3540-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1700 max words, 200 samples - at ../dataset/gen-word-1700-count.jsonl\n"
+      "Generated JSONL file with - 2130 max words, 200 samples - at ../dataset/gen-word-2130-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 39 samples (20 token repeat) - 2330 max words - at ../dataset/shuffle-word-2330-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3305 max words - at ../dataset/shuffle-word-3305-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2785 max words - at ../dataset/shuffle-word-2785-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2080 max words - at ../dataset/shuffle-word-2080-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 37 samples (20 token repeat) - 2435 max words - at ../dataset/shuffle-word-2435-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3770 max words - at ../dataset/shuffle-word-3770-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 36 samples (20 token repeat) - 2475 max words - at ../dataset/shuffle-word-2475-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3290 max words - at ../dataset/shuffle-word-3290-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 21 samples (20 token repeat) - 2780 max words - at ../dataset/shuffle-word-2780-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3265 max words - at ../dataset/shuffle-word-3265-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1855 max words, 200 samples - at ../dataset/gen-word-1855-count.jsonl\n"
+      "Generated JSONL file with - 2915 max words, 200 samples - at ../dataset/gen-word-2915-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2970 max words - at ../dataset/shuffle-word-2970-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1015 max words - at ../dataset/shuffle-word-1015-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 32 samples (20 token repeat) - 2590 max words - at ../dataset/shuffle-word-2590-count.jsonl\n"
+      "Generated JSONL file with - 2790 max words, 200 samples - at ../dataset/gen-word-2790-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3425 max words - at ../dataset/shuffle-word-3425-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3700 max words - at ../dataset/shuffle-word-3700-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 28 samples (20 token repeat) - 2595 max words - at ../dataset/shuffle-word-2595-count.jsonl\n"
+      "Generated a single JSONL file with 29 samples (20 token repeat) - 2540 max words - at ../dataset/shuffle-word-2540-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2485 max words, 200 samples - at ../dataset/gen-word-2485-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3275 max words - at ../dataset/shuffle-word-3275-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3020 max words - at ../dataset/shuffle-word-3020-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3155 max words - at ../dataset/shuffle-word-3155-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2900 max words - at ../dataset/shuffle-word-2900-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3535 max words - at ../dataset/shuffle-word-3535-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2915 max words, 200 samples - at ../dataset/gen-word-2915-count.jsonl\n"
+      "Generated a single JSONL file with 51 samples (20 token repeat) - 1240 max words - at ../dataset/shuffle-word-1240-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2515 max words, 200 samples - at ../dataset/gen-word-2515-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3685 max words - at ../dataset/shuffle-word-3685-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2890 max words - at ../dataset/shuffle-word-2890-count.jsonl\n"
+      "Generated JSONL file with - 2570 max words, 200 samples - at ../dataset/gen-word-2570-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2035 max words - at ../dataset/shuffle-word-2035-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3325 max words - at ../dataset/shuffle-word-3325-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3235 max words - at ../dataset/shuffle-word-3235-count.jsonl\n"
+      "Generated JSONL file with - 825 max words, 200 samples - at ../dataset/gen-word-825-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2400 max words, 200 samples - at ../dataset/gen-word-2400-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3780 max words - at ../dataset/shuffle-word-3780-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1305 max words, 200 samples - at ../dataset/gen-word-1305-count.jsonl\n"
+      "Generated a single JSONL file with 59 samples (20 token repeat) - 1115 max words - at ../dataset/shuffle-word-1115-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1860 max words, 200 samples - at ../dataset/gen-word-1860-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3875 max words - at ../dataset/shuffle-word-3875-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 31 samples (20 token repeat) - 2550 max words - at ../dataset/shuffle-word-2550-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3580 max words - at ../dataset/shuffle-word-3580-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3290 max words - at ../dataset/shuffle-word-3290-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3980 max words - at ../dataset/shuffle-word-3980-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3120 max words - at ../dataset/shuffle-word-3120-count.jsonl\n"
+      "Generated JSONL file with - 660 max words, 200 samples - at ../dataset/gen-word-660-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2860 max words - at ../dataset/shuffle-word-2860-count.jsonl\n"
+      "Generated JSONL file with - 1285 max words, 200 samples - at ../dataset/gen-word-1285-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2510 max words, 200 samples - at ../dataset/gen-word-2510-count.jsonl\n"
+      "Generated JSONL file with - 3110 max words, 200 samples - at ../dataset/gen-word-3110-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 80 samples (20 token repeat) - 795 max words - at ../dataset/shuffle-word-795-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3525 max words - at ../dataset/shuffle-word-3525-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2920 max words, 200 samples - at ../dataset/gen-word-2920-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3790 max words - at ../dataset/shuffle-word-3790-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1510 max words, 200 samples - at ../dataset/gen-word-1510-count.jsonl\n"
+      "Generated JSONL file with - 695 max words, 200 samples - at ../dataset/gen-word-695-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 37 samples (20 token repeat) - 2480 max words - at ../dataset/shuffle-word-2480-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3420 max words - at ../dataset/shuffle-word-3420-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2910 max words - at ../dataset/shuffle-word-2910-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3660 max words - at ../dataset/shuffle-word-3660-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3150 max words - at ../dataset/shuffle-word-3150-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3295 max words - at ../dataset/shuffle-word-3295-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1795 max words, 200 samples - at ../dataset/gen-word-1795-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3130 max words - at ../dataset/shuffle-word-3130-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 39 samples (20 token repeat) - 2440 max words - at ../dataset/shuffle-word-2440-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3825 max words - at ../dataset/shuffle-word-3825-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 25 samples (20 token repeat) - 2610 max words - at ../dataset/shuffle-word-2610-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3605 max words - at ../dataset/shuffle-word-3605-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 39 samples (20 token repeat) - 2420 max words - at ../dataset/shuffle-word-2420-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1970 max words - at ../dataset/shuffle-word-1970-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 31 samples (20 token repeat) - 2535 max words - at ../dataset/shuffle-word-2535-count.jsonl\n"
+      "Generated JSONL file with - 1695 max words, 200 samples - at ../dataset/gen-word-1695-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2850 max words - at ../dataset/shuffle-word-2850-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3570 max words - at ../dataset/shuffle-word-3570-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 37 samples (20 token repeat) - 2410 max words - at ../dataset/shuffle-word-2410-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3060 max words - at ../dataset/shuffle-word-3060-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1555 max words, 200 samples - at ../dataset/gen-word-1555-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3865 max words - at ../dataset/shuffle-word-3865-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2300 max words - at ../dataset/shuffle-word-2300-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3705 max words - at ../dataset/shuffle-word-3705-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2805 max words - at ../dataset/shuffle-word-2805-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3740 max words - at ../dataset/shuffle-word-3740-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2870 max words - at ../dataset/shuffle-word-2870-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3805 max words - at ../dataset/shuffle-word-3805-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 31 samples (20 token repeat) - 2600 max words - at ../dataset/shuffle-word-2600-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3500 max words - at ../dataset/shuffle-word-3500-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1370 max words, 200 samples - at ../dataset/gen-word-1370-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3960 max words - at ../dataset/shuffle-word-3960-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2620 max words, 200 samples - at ../dataset/gen-word-2620-count.jsonl\n"
+      "Generated a single JSONL file with 41 samples (20 token repeat) - 1380 max words - at ../dataset/shuffle-word-1380-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2800 max words - at ../dataset/shuffle-word-2800-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3545 max words - at ../dataset/shuffle-word-3545-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1450 max words, 200 samples - at ../dataset/gen-word-1450-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3720 max words - at ../dataset/shuffle-word-3720-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 22 samples (20 token repeat) - 2675 max words - at ../dataset/shuffle-word-2675-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 995 max words - at ../dataset/shuffle-word-995-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3060 max words - at ../dataset/shuffle-word-3060-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3785 max words - at ../dataset/shuffle-word-3785-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2845 max words - at ../dataset/shuffle-word-2845-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3650 max words - at ../dataset/shuffle-word-3650-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1800 max words, 200 samples - at ../dataset/gen-word-1800-count.jsonl\n"
+      "Generated JSONL file with - 1745 max words, 200 samples - at ../dataset/gen-word-1745-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3055 max words - at ../dataset/shuffle-word-3055-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3670 max words - at ../dataset/shuffle-word-3670-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3090 max words - at ../dataset/shuffle-word-3090-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3145 max words - at ../dataset/shuffle-word-3145-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1215 max words, 200 samples - at ../dataset/gen-word-1215-count.jsonl\n"
+      "Generated JSONL file with - 3100 max words, 200 samples - at ../dataset/gen-word-3100-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3005 max words - at ../dataset/shuffle-word-3005-count.jsonl\n"
+      "Generated JSONL file with - 710 max words, 200 samples - at ../dataset/gen-word-710-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1895 max words, 200 samples - at ../dataset/gen-word-1895-count.jsonl\n"
+      "Generated JSONL file with - 2505 max words, 200 samples - at ../dataset/gen-word-2505-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1785 max words, 200 samples - at ../dataset/gen-word-1785-count.jsonl\n"
+      "Generated JSONL file with - 1770 max words, 200 samples - at ../dataset/gen-word-1770-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1390 max words, 200 samples - at ../dataset/gen-word-1390-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3350 max words - at ../dataset/shuffle-word-3350-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1685 max words, 200 samples - at ../dataset/gen-word-1685-count.jsonl\n"
+      "Generated JSONL file with - 1965 max words, 200 samples - at ../dataset/gen-word-1965-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 28 samples (20 token repeat) - 2505 max words - at ../dataset/shuffle-word-2505-count.jsonl\n"
+      "Generated JSONL file with - 1865 max words, 200 samples - at ../dataset/gen-word-1865-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 22 samples (20 token repeat) - 2775 max words - at ../dataset/shuffle-word-2775-count.jsonl\n"
+      "Generated JSONL file with - 2625 max words, 200 samples - at ../dataset/gen-word-2625-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2065 max words - at ../dataset/shuffle-word-2065-count.jsonl\n"
+      "Generated JSONL file with - 2085 max words, 200 samples - at ../dataset/gen-word-2085-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 2370 max words - at ../dataset/shuffle-word-2370-count.jsonl\n"
+      "Generated JSONL file with - 1195 max words, 200 samples - at ../dataset/gen-word-1195-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3155 max words - at ../dataset/shuffle-word-3155-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3550 max words - at ../dataset/shuffle-word-3550-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3000 max words - at ../dataset/shuffle-word-3000-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3595 max words - at ../dataset/shuffle-word-3595-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3085 max words - at ../dataset/shuffle-word-3085-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3820 max words - at ../dataset/shuffle-word-3820-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1790 max words, 200 samples - at ../dataset/gen-word-1790-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1460 max words - at ../dataset/shuffle-word-1460-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2865 max words - at ../dataset/shuffle-word-2865-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3975 max words - at ../dataset/shuffle-word-3975-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1495 max words, 200 samples - at ../dataset/gen-word-1495-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3900 max words - at ../dataset/shuffle-word-3900-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3100 max words - at ../dataset/shuffle-word-3100-count.jsonl\n"
+      "Generated JSONL file with - 1070 max words, 200 samples - at ../dataset/gen-word-1070-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 40 samples (20 token repeat) - 1815 max words - at ../dataset/shuffle-word-1815-count.jsonl\n"
+      "Generated JSONL file with - 2205 max words, 200 samples - at ../dataset/gen-word-2205-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 990 max words, 200 samples - at ../dataset/gen-word-990-count.jsonl\n"
+      "Generated JSONL file with - 2075 max words, 200 samples - at ../dataset/gen-word-2075-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 21 samples (20 token repeat) - 2680 max words - at ../dataset/shuffle-word-2680-count.jsonl\n"
+      "Generated JSONL file with - 1675 max words, 200 samples - at ../dataset/gen-word-1675-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 35 samples (20 token repeat) - 2500 max words - at ../dataset/shuffle-word-2500-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3990 max words - at ../dataset/shuffle-word-3990-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3010 max words - at ../dataset/shuffle-word-3010-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 2920 max words - at ../dataset/shuffle-word-2920-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2955 max words - at ../dataset/shuffle-word-2955-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3745 max words - at ../dataset/shuffle-word-3745-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1365 max words, 200 samples - at ../dataset/gen-word-1365-count.jsonl\n"
+      "Generated JSONL file with - 2190 max words, 200 samples - at ../dataset/gen-word-2190-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1185 max words, 200 samples - at ../dataset/gen-word-1185-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3475 max words - at ../dataset/shuffle-word-3475-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 36 samples (20 token repeat) - 2425 max words - at ../dataset/shuffle-word-2425-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3880 max words - at ../dataset/shuffle-word-3880-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1875 max words, 200 samples - at ../dataset/gen-word-1875-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1415 max words - at ../dataset/shuffle-word-1415-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2885 max words - at ../dataset/shuffle-word-2885-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3590 max words - at ../dataset/shuffle-word-3590-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3050 max words - at ../dataset/shuffle-word-3050-count.jsonl\n"
+      "Generated JSONL file with - 1385 max words, 200 samples - at ../dataset/gen-word-1385-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2835 max words - at ../dataset/shuffle-word-2835-count.jsonl\n"
+      "Generated a single JSONL file with 50 samples (20 token repeat) - 1260 max words - at ../dataset/shuffle-word-1260-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3325 max words - at ../dataset/shuffle-word-3325-count.jsonl\n"
+      "Generated a single JSONL file with 49 samples (20 token repeat) - 1205 max words - at ../dataset/shuffle-word-1205-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2975 max words - at ../dataset/shuffle-word-2975-count.jsonl\n"
+      "Generated JSONL file with - 855 max words, 200 samples - at ../dataset/gen-word-855-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1180 max words, 200 samples - at ../dataset/gen-word-1180-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3135 max words - at ../dataset/shuffle-word-3135-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3135 max words - at ../dataset/shuffle-word-3135-count.jsonl\n"
+      "Generated JSONL file with - 690 max words, 200 samples - at ../dataset/gen-word-690-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2810 max words - at ../dataset/shuffle-word-2810-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3045 max words - at ../dataset/shuffle-word-3045-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2935 max words - at ../dataset/shuffle-word-2935-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1685 max words - at ../dataset/shuffle-word-1685-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3075 max words - at ../dataset/shuffle-word-3075-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3965 max words - at ../dataset/shuffle-word-3965-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3110 max words - at ../dataset/shuffle-word-3110-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3220 max words - at ../dataset/shuffle-word-3220-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1955 max words, 200 samples - at ../dataset/gen-word-1955-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2370 max words - at ../dataset/shuffle-word-2370-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1960 max words, 200 samples - at ../dataset/gen-word-1960-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2205 max words - at ../dataset/shuffle-word-2205-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2985 max words - at ../dataset/shuffle-word-2985-count.jsonl\n"
+      "Generated JSONL file with - 1440 max words, 200 samples - at ../dataset/gen-word-1440-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2435 max words, 200 samples - at ../dataset/gen-word-2435-count.jsonl\n"
+      "Generated JSONL file with - 1940 max words, 200 samples - at ../dataset/gen-word-1940-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2930 max words - at ../dataset/shuffle-word-2930-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3235 max words - at ../dataset/shuffle-word-3235-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3775 max words, 200 samples - at ../dataset/gen-word-3775-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2145 max words - at ../dataset/shuffle-word-2145-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2110 max words, 200 samples - at ../dataset/gen-word-2110-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3970 max words - at ../dataset/shuffle-word-3970-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3255 max words - at ../dataset/shuffle-word-3255-count.jsonl\n"
+      "Generated a single JSONL file with 29 samples (20 token repeat) - 2675 max words - at ../dataset/shuffle-word-2675-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3200 max words - at ../dataset/shuffle-word-3200-count.jsonl\n"
+      "Generated JSONL file with - 1560 max words, 200 samples - at ../dataset/gen-word-1560-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3265 max words - at ../dataset/shuffle-word-3265-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3675 max words - at ../dataset/shuffle-word-3675-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3755 max words, 200 samples - at ../dataset/gen-word-3755-count.jsonl\n"
+      "Generated JSONL file with - 2440 max words, 200 samples - at ../dataset/gen-word-2440-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3575 max words, 200 samples - at ../dataset/gen-word-3575-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2015 max words - at ../dataset/shuffle-word-2015-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3795 max words, 200 samples - at ../dataset/gen-word-3795-count.jsonl\n"
+      "Generated a single JSONL file with 23 samples (20 token repeat) - 2655 max words - at ../dataset/shuffle-word-2655-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2425 max words, 200 samples - at ../dataset/gen-word-2425-count.jsonl\n"
+      "Generated a single JSONL file with 78 samples (20 token repeat) - 710 max words - at ../dataset/shuffle-word-710-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3045 max words, 200 samples - at ../dataset/gen-word-3045-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2225 max words - at ../dataset/shuffle-word-2225-count.jsonl\n"
      ]
     },
     {
@@ -9772,1295 +9970,1281 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1995 max words, 200 samples - at ../dataset/gen-word-1995-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3300 max words - at ../dataset/shuffle-word-3300-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1205 max words, 200 samples - at ../dataset/gen-word-1205-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3405 max words - at ../dataset/shuffle-word-3405-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1945 max words, 200 samples - at ../dataset/gen-word-1945-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1485 max words - at ../dataset/shuffle-word-1485-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1090 max words, 200 samples - at ../dataset/gen-word-1090-count.jsonl\n"
+      "Generated JSONL file with - 2140 max words, 200 samples - at ../dataset/gen-word-2140-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2705 max words, 200 samples - at ../dataset/gen-word-2705-count.jsonl\n"
+      "Generated JSONL file with - 1205 max words, 200 samples - at ../dataset/gen-word-1205-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1905 max words, 200 samples - at ../dataset/gen-word-1905-count.jsonl\n"
+      "Generated JSONL file with - 2340 max words, 200 samples - at ../dataset/gen-word-2340-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3185 max words - at ../dataset/shuffle-word-3185-count.jsonl\n"
+      "Generated JSONL file with - 1685 max words, 200 samples - at ../dataset/gen-word-1685-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2500 max words, 200 samples - at ../dataset/gen-word-2500-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2295 max words - at ../dataset/shuffle-word-2295-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3635 max words - at ../dataset/shuffle-word-3635-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1625 max words - at ../dataset/shuffle-word-1625-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1735 max words, 200 samples - at ../dataset/gen-word-1735-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3930 max words - at ../dataset/shuffle-word-3930-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 2990 max words - at ../dataset/shuffle-word-2990-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3760 max words - at ../dataset/shuffle-word-3760-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 870 max words, 200 samples - at ../dataset/gen-word-870-count.jsonl\n"
+      "Generated JSONL file with - 3755 max words, 200 samples - at ../dataset/gen-word-3755-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3605 max words - at ../dataset/shuffle-word-3605-count.jsonl\n"
+      "Generated a single JSONL file with 21 samples (20 token repeat) - 2765 max words - at ../dataset/shuffle-word-2765-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3405 max words - at ../dataset/shuffle-word-3405-count.jsonl\n"
+      "Generated a single JSONL file with 29 samples (20 token repeat) - 2595 max words - at ../dataset/shuffle-word-2595-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3260 max words - at ../dataset/shuffle-word-3260-count.jsonl\n"
+      "Generated JSONL file with - 1715 max words, 200 samples - at ../dataset/gen-word-1715-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3370 max words - at ../dataset/shuffle-word-3370-count.jsonl\n"
+      "Generated JSONL file with - 3220 max words, 200 samples - at ../dataset/gen-word-3220-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3215 max words - at ../dataset/shuffle-word-3215-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3170 max words - at ../dataset/shuffle-word-3170-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3510 max words, 200 samples - at ../dataset/gen-word-3510-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3945 max words - at ../dataset/shuffle-word-3945-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3470 max words - at ../dataset/shuffle-word-3470-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3080 max words - at ../dataset/shuffle-word-3080-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3420 max words - at ../dataset/shuffle-word-3420-count.jsonl\n"
+      "Generated JSONL file with - 1985 max words, 200 samples - at ../dataset/gen-word-1985-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3180 max words - at ../dataset/shuffle-word-3180-count.jsonl\n"
+      "Generated JSONL file with - 1585 max words, 200 samples - at ../dataset/gen-word-1585-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3355 max words - at ../dataset/shuffle-word-3355-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3435 max words - at ../dataset/shuffle-word-3435-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3395 max words, 200 samples - at ../dataset/gen-word-3395-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2230 max words - at ../dataset/shuffle-word-2230-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1385 max words, 200 samples - at ../dataset/gen-word-1385-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3510 max words - at ../dataset/shuffle-word-3510-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2185 max words, 200 samples - at ../dataset/gen-word-2185-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3575 max words - at ../dataset/shuffle-word-3575-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1435 max words, 200 samples - at ../dataset/gen-word-1435-count.jsonl\n"
+      "Generated JSONL file with - 2145 max words, 200 samples - at ../dataset/gen-word-2145-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2630 max words, 200 samples - at ../dataset/gen-word-2630-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3910 max words - at ../dataset/shuffle-word-3910-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3345 max words - at ../dataset/shuffle-word-3345-count.jsonl\n"
+      "Generated JSONL file with - 1945 max words, 200 samples - at ../dataset/gen-word-1945-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2665 max words, 200 samples - at ../dataset/gen-word-2665-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3715 max words - at ../dataset/shuffle-word-3715-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3270 max words - at ../dataset/shuffle-word-3270-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2170 max words - at ../dataset/shuffle-word-2170-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3015 max words - at ../dataset/shuffle-word-3015-count.jsonl\n"
+      "Generated JSONL file with - 875 max words, 200 samples - at ../dataset/gen-word-875-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1575 max words, 200 samples - at ../dataset/gen-word-1575-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 4000 max words - at ../dataset/shuffle-word-4000-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1190 max words, 200 samples - at ../dataset/gen-word-1190-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3775 max words - at ../dataset/shuffle-word-3775-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2450 max words, 200 samples - at ../dataset/gen-word-2450-count.jsonl\n"
+      "Generated JSONL file with - 1340 max words, 200 samples - at ../dataset/gen-word-1340-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3245 max words - at ../dataset/shuffle-word-3245-count.jsonl\n"
+      "Generated a single JSONL file with 38 samples (20 token repeat) - 2425 max words - at ../dataset/shuffle-word-2425-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3335 max words - at ../dataset/shuffle-word-3335-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3285 max words - at ../dataset/shuffle-word-3285-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1750 max words, 200 samples - at ../dataset/gen-word-1750-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3515 max words - at ../dataset/shuffle-word-3515-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2475 max words, 200 samples - at ../dataset/gen-word-2475-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1445 max words - at ../dataset/shuffle-word-1445-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3210 max words - at ../dataset/shuffle-word-3210-count.jsonl\n"
+      "Generated JSONL file with - 1520 max words, 200 samples - at ../dataset/gen-word-1520-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2880 max words, 200 samples - at ../dataset/gen-word-2880-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3035 max words - at ../dataset/shuffle-word-3035-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1610 max words, 200 samples - at ../dataset/gen-word-1610-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3460 max words - at ../dataset/shuffle-word-3460-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3310 max words - at ../dataset/shuffle-word-3310-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3450 max words - at ../dataset/shuffle-word-3450-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3445 max words - at ../dataset/shuffle-word-3445-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3440 max words - at ../dataset/shuffle-word-3440-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3410 max words - at ../dataset/shuffle-word-3410-count.jsonl\n"
+      "Generated a single JSONL file with 36 samples (20 token repeat) - 2420 max words - at ../dataset/shuffle-word-2420-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3275 max words - at ../dataset/shuffle-word-3275-count.jsonl\n"
+      "Generated JSONL file with - 3075 max words, 200 samples - at ../dataset/gen-word-3075-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2935 max words, 200 samples - at ../dataset/gen-word-2935-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3230 max words - at ../dataset/shuffle-word-3230-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1170 max words, 200 samples - at ../dataset/gen-word-1170-count.jsonl\n"
+      "Generated JSONL file with - 1980 max words, 200 samples - at ../dataset/gen-word-1980-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3175 max words - at ../dataset/shuffle-word-3175-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 1495 max words - at ../dataset/shuffle-word-1495-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1455 max words, 200 samples - at ../dataset/gen-word-1455-count.jsonl\n"
+      "Generated JSONL file with - 1005 max words, 200 samples - at ../dataset/gen-word-1005-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2255 max words, 200 samples - at ../dataset/gen-word-2255-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3385 max words - at ../dataset/shuffle-word-3385-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3285 max words - at ../dataset/shuffle-word-3285-count.jsonl\n"
+      "Generated JSONL file with - 1500 max words, 200 samples - at ../dataset/gen-word-1500-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3205 max words - at ../dataset/shuffle-word-3205-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3920 max words - at ../dataset/shuffle-word-3920-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1260 max words, 200 samples - at ../dataset/gen-word-1260-count.jsonl\n"
+      "Generated a single JSONL file with 62 samples (20 token repeat) - 810 max words - at ../dataset/shuffle-word-810-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3545 max words - at ../dataset/shuffle-word-3545-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3010 max words - at ../dataset/shuffle-word-3010-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3280 max words - at ../dataset/shuffle-word-3280-count.jsonl\n"
+      "Generated JSONL file with - 910 max words, 200 samples - at ../dataset/gen-word-910-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3225 max words - at ../dataset/shuffle-word-3225-count.jsonl\n"
+      "Generated a single JSONL file with 35 samples (20 token repeat) - 2470 max words - at ../dataset/shuffle-word-2470-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2315 max words, 200 samples - at ../dataset/gen-word-2315-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2350 max words - at ../dataset/shuffle-word-2350-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3560 max words - at ../dataset/shuffle-word-3560-count.jsonl\n"
+      "Generated JSONL file with - 2430 max words, 200 samples - at ../dataset/gen-word-2430-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2395 max words, 200 samples - at ../dataset/gen-word-2395-count.jsonl\n"
+      "Generated a single JSONL file with 21 samples (20 token repeat) - 2715 max words - at ../dataset/shuffle-word-2715-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2195 max words, 200 samples - at ../dataset/gen-word-2195-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3810 max words - at ../dataset/shuffle-word-3810-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2745 max words, 200 samples - at ../dataset/gen-word-2745-count.jsonl\n"
+      "Generated a single JSONL file with 32 samples (20 token repeat) - 2485 max words - at ../dataset/shuffle-word-2485-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3365 max words - at ../dataset/shuffle-word-3365-count.jsonl\n"
+      "Generated a single JSONL file with 60 samples (20 token repeat) - 1095 max words - at ../dataset/shuffle-word-1095-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3430 max words - at ../dataset/shuffle-word-3430-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3815 max words - at ../dataset/shuffle-word-3815-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3530 max words, 200 samples - at ../dataset/gen-word-3530-count.jsonl\n"
+      "Generated a single JSONL file with 49 samples (20 token repeat) - 1220 max words - at ../dataset/shuffle-word-1220-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2695 max words, 200 samples - at ../dataset/gen-word-2695-count.jsonl\n"
+      "Generated a single JSONL file with 24 samples (20 token repeat) - 2660 max words - at ../dataset/shuffle-word-2660-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3025 max words - at ../dataset/shuffle-word-3025-count.jsonl\n"
+      "Generated a single JSONL file with 40 samples (20 token repeat) - 2085 max words - at ../dataset/shuffle-word-2085-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2730 max words, 200 samples - at ../dataset/gen-word-2730-count.jsonl\n"
+      "Generated JSONL file with - 1200 max words, 200 samples - at ../dataset/gen-word-1200-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1765 max words, 200 samples - at ../dataset/gen-word-1765-count.jsonl\n"
+      "Generated JSONL file with - 2655 max words, 200 samples - at ../dataset/gen-word-2655-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3190 max words - at ../dataset/shuffle-word-3190-count.jsonl\n"
+      "Generated JSONL file with - 640 max words, 200 samples - at ../dataset/gen-word-640-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3685 max words - at ../dataset/shuffle-word-3685-count.jsonl\n"
+      "Generated JSONL file with - 1050 max words, 200 samples - at ../dataset/gen-word-1050-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3295 max words - at ../dataset/shuffle-word-3295-count.jsonl\n"
+      "Generated JSONL file with - 2480 max words, 200 samples - at ../dataset/gen-word-2480-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1810 max words, 200 samples - at ../dataset/gen-word-1810-count.jsonl\n"
+      "Generated JSONL file with - 2155 max words, 200 samples - at ../dataset/gen-word-2155-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2950 max words, 200 samples - at ../dataset/gen-word-2950-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3840 max words - at ../dataset/shuffle-word-3840-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1880 max words, 200 samples - at ../dataset/gen-word-1880-count.jsonl\n"
+      "Generated JSONL file with - 3195 max words, 200 samples - at ../dataset/gen-word-3195-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3400 max words - at ../dataset/shuffle-word-3400-count.jsonl\n"
+      "Generated JSONL file with - 1635 max words, 200 samples - at ../dataset/gen-word-1635-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1815 max words, 200 samples - at ../dataset/gen-word-1815-count.jsonl\n"
+      "Generated JSONL file with - 2825 max words, 200 samples - at ../dataset/gen-word-2825-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1025 max words, 200 samples - at ../dataset/gen-word-1025-count.jsonl\n"
+      "Generated JSONL file with - 2455 max words, 200 samples - at ../dataset/gen-word-2455-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1635 max words, 200 samples - at ../dataset/gen-word-1635-count.jsonl\n"
+      "Generated JSONL file with - 1270 max words, 200 samples - at ../dataset/gen-word-1270-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1970 max words, 200 samples - at ../dataset/gen-word-1970-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3855 max words - at ../dataset/shuffle-word-3855-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2000 max words, 200 samples - at ../dataset/gen-word-2000-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3625 max words - at ../dataset/shuffle-word-3625-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3280 max words, 200 samples - at ../dataset/gen-word-3280-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3505 max words - at ../dataset/shuffle-word-3505-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1265 max words, 200 samples - at ../dataset/gen-word-1265-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3645 max words - at ../dataset/shuffle-word-3645-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3090 max words, 200 samples - at ../dataset/gen-word-3090-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3950 max words - at ../dataset/shuffle-word-3950-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3780 max words, 200 samples - at ../dataset/gen-word-3780-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3320 max words - at ../dataset/shuffle-word-3320-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1965 max words, 200 samples - at ../dataset/gen-word-1965-count.jsonl\n"
+      "Generated JSONL file with - 1060 max words, 200 samples - at ../dataset/gen-word-1060-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1805 max words, 200 samples - at ../dataset/gen-word-1805-count.jsonl\n"
+      "Generated JSONL file with - 1895 max words, 200 samples - at ../dataset/gen-word-1895-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1935 max words, 200 samples - at ../dataset/gen-word-1935-count.jsonl\n"
+      "Generated JSONL file with - 2025 max words, 200 samples - at ../dataset/gen-word-2025-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1250 max words, 200 samples - at ../dataset/gen-word-1250-count.jsonl\n"
+      "Generated a single JSONL file with 20 samples (20 token repeat) - 3360 max words - at ../dataset/shuffle-word-3360-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3630 max words - at ../dataset/shuffle-word-3630-count.jsonl\n"
+      "Generated JSONL file with - 605 max words, 200 samples - at ../dataset/gen-word-605-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2270 max words, 200 samples - at ../dataset/gen-word-2270-count.jsonl\n"
+      "Generated JSONL file with - 3180 max words, 200 samples - at ../dataset/gen-word-3180-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2065 max words, 200 samples - at ../dataset/gen-word-2065-count.jsonl\n"
+      "Generated JSONL file with - 1225 max words, 200 samples - at ../dataset/gen-word-1225-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3465 max words - at ../dataset/shuffle-word-3465-count.jsonl\n"
+      "Generated JSONL file with - 1310 max words, 200 samples - at ../dataset/gen-word-1310-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3485 max words - at ../dataset/shuffle-word-3485-count.jsonl\n"
+      "Generated JSONL file with - 1640 max words, 200 samples - at ../dataset/gen-word-1640-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3220 max words - at ../dataset/shuffle-word-3220-count.jsonl\n"
+      "Generated JSONL file with - 1720 max words, 200 samples - at ../dataset/gen-word-1720-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3380 max words - at ../dataset/shuffle-word-3380-count.jsonl\n"
+      "Generated JSONL file with - 3135 max words, 200 samples - at ../dataset/gen-word-3135-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3710 max words - at ../dataset/shuffle-word-3710-count.jsonl\n"
+      "Generated JSONL file with - 2635 max words, 200 samples - at ../dataset/gen-word-2635-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3350 max words - at ../dataset/shuffle-word-3350-count.jsonl\n"
+      "Generated JSONL file with - 2240 max words, 200 samples - at ../dataset/gen-word-2240-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3640 max words - at ../dataset/shuffle-word-3640-count.jsonl\n"
+      "Generated JSONL file with - 2680 max words, 200 samples - at ../dataset/gen-word-2680-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1920 max words, 200 samples - at ../dataset/gen-word-1920-count.jsonl\n"
+      "Generated JSONL file with - 2660 max words, 200 samples - at ../dataset/gen-word-2660-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3230 max words - at ../dataset/shuffle-word-3230-count.jsonl\n"
+      "Generated JSONL file with - 1510 max words, 200 samples - at ../dataset/gen-word-1510-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3775 max words - at ../dataset/shuffle-word-3775-count.jsonl\n"
+      "Generated JSONL file with - 2925 max words, 200 samples - at ../dataset/gen-word-2925-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1770 max words, 200 samples - at ../dataset/gen-word-1770-count.jsonl\n"
+      "Generated JSONL file with - 2600 max words, 200 samples - at ../dataset/gen-word-2600-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3825 max words - at ../dataset/shuffle-word-3825-count.jsonl\n"
+      "Generated JSONL file with - 2070 max words, 200 samples - at ../dataset/gen-word-2070-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1640 max words, 200 samples - at ../dataset/gen-word-1640-count.jsonl\n"
+      "Generated JSONL file with - 1905 max words, 200 samples - at ../dataset/gen-word-1905-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2785 max words, 200 samples - at ../dataset/gen-word-2785-count.jsonl\n"
+      "Generated JSONL file with - 1615 max words, 200 samples - at ../dataset/gen-word-1615-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3965 max words - at ../dataset/shuffle-word-3965-count.jsonl\n"
+      "Generated JSONL file with - 2285 max words, 200 samples - at ../dataset/gen-word-2285-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3410 max words, 200 samples - at ../dataset/gen-word-3410-count.jsonl\n"
+      "Generated JSONL file with - 1950 max words, 200 samples - at ../dataset/gen-word-1950-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2225 max words, 200 samples - at ../dataset/gen-word-2225-count.jsonl\n"
+      "Generated JSONL file with - 2005 max words, 200 samples - at ../dataset/gen-word-2005-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2275 max words, 200 samples - at ../dataset/gen-word-2275-count.jsonl\n"
+      "Generated JSONL file with - 1705 max words, 200 samples - at ../dataset/gen-word-1705-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2835 max words, 200 samples - at ../dataset/gen-word-2835-count.jsonl\n"
+      "Generated JSONL file with - 925 max words, 200 samples - at ../dataset/gen-word-925-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3975 max words - at ../dataset/shuffle-word-3975-count.jsonl\n"
+      "Generated JSONL file with - 3275 max words, 200 samples - at ../dataset/gen-word-3275-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3520 max words - at ../dataset/shuffle-word-3520-count.jsonl\n"
+      "Generated JSONL file with - 2830 max words, 200 samples - at ../dataset/gen-word-2830-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2040 max words, 200 samples - at ../dataset/gen-word-2040-count.jsonl\n"
+      "Generated JSONL file with - 2235 max words, 200 samples - at ../dataset/gen-word-2235-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3900 max words - at ../dataset/shuffle-word-3900-count.jsonl\n"
+      "Generated JSONL file with - 1900 max words, 200 samples - at ../dataset/gen-word-1900-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3960 max words - at ../dataset/shuffle-word-3960-count.jsonl\n"
+      "Generated JSONL file with - 2105 max words, 200 samples - at ../dataset/gen-word-2105-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3150 max words, 200 samples - at ../dataset/gen-word-3150-count.jsonl\n"
+      "Generated JSONL file with - 795 max words, 200 samples - at ../dataset/gen-word-795-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3905 max words - at ../dataset/shuffle-word-3905-count.jsonl\n"
+      "Generated JSONL file with - 1915 max words, 200 samples - at ../dataset/gen-word-1915-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2160 max words, 200 samples - at ../dataset/gen-word-2160-count.jsonl\n"
+      "Generated JSONL file with - 865 max words, 200 samples - at ../dataset/gen-word-865-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3625 max words - at ../dataset/shuffle-word-3625-count.jsonl\n"
+      "Generated JSONL file with - 1730 max words, 200 samples - at ../dataset/gen-word-1730-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3795 max words - at ../dataset/shuffle-word-3795-count.jsonl\n"
+      "Generated JSONL file with - 2245 max words, 200 samples - at ../dataset/gen-word-2245-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3125 max words, 200 samples - at ../dataset/gen-word-3125-count.jsonl\n"
+      "Generated JSONL file with - 2310 max words, 200 samples - at ../dataset/gen-word-2310-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2955 max words, 200 samples - at ../dataset/gen-word-2955-count.jsonl\n"
+      "Generated JSONL file with - 800 max words, 200 samples - at ../dataset/gen-word-800-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3580 max words - at ../dataset/shuffle-word-3580-count.jsonl\n"
+      "Generated JSONL file with - 1660 max words, 200 samples - at ../dataset/gen-word-1660-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3385 max words - at ../dataset/shuffle-word-3385-count.jsonl\n"
+      "Generated JSONL file with - 2360 max words, 200 samples - at ../dataset/gen-word-2360-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3890 max words - at ../dataset/shuffle-word-3890-count.jsonl\n"
+      "Generated JSONL file with - 2015 max words, 200 samples - at ../dataset/gen-word-2015-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3750 max words - at ../dataset/shuffle-word-3750-count.jsonl\n"
+      "Generated JSONL file with - 2200 max words, 200 samples - at ../dataset/gen-word-2200-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3930 max words - at ../dataset/shuffle-word-3930-count.jsonl\n"
+      "Generated JSONL file with - 1015 max words, 200 samples - at ../dataset/gen-word-1015-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2030 max words, 200 samples - at ../dataset/gen-word-2030-count.jsonl\n"
+      "Generated JSONL file with - 2690 max words, 200 samples - at ../dataset/gen-word-2690-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3865 max words - at ../dataset/shuffle-word-3865-count.jsonl\n"
+      "Generated JSONL file with - 2345 max words, 200 samples - at ../dataset/gen-word-2345-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2350 max words, 200 samples - at ../dataset/gen-word-2350-count.jsonl\n"
+      "Generated JSONL file with - 2320 max words, 200 samples - at ../dataset/gen-word-2320-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3490 max words, 200 samples - at ../dataset/gen-word-3490-count.jsonl\n"
+      "Generated JSONL file with - 1095 max words, 200 samples - at ../dataset/gen-word-1095-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3950 max words - at ../dataset/shuffle-word-3950-count.jsonl\n"
+      "Generated JSONL file with - 2525 max words, 200 samples - at ../dataset/gen-word-2525-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3805 max words - at ../dataset/shuffle-word-3805-count.jsonl\n"
+      "Generated JSONL file with - 1125 max words, 200 samples - at ../dataset/gen-word-1125-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3665 max words - at ../dataset/shuffle-word-3665-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2170 max words, 200 samples - at ../dataset/gen-word-2170-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3735 max words - at ../dataset/shuffle-word-3735-count.jsonl\n"
+      "Generated JSONL file with - 1065 max words, 200 samples - at ../dataset/gen-word-1065-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2220 max words, 200 samples - at ../dataset/gen-word-2220-count.jsonl\n"
+      "Generated JSONL file with - 2425 max words, 200 samples - at ../dataset/gen-word-2425-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3660 max words - at ../dataset/shuffle-word-3660-count.jsonl\n"
+      "Generated JSONL file with - 1260 max words, 200 samples - at ../dataset/gen-word-1260-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2965 max words, 200 samples - at ../dataset/gen-word-2965-count.jsonl\n"
+      "Generated JSONL file with - 2520 max words, 200 samples - at ../dataset/gen-word-2520-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3650 max words - at ../dataset/shuffle-word-3650-count.jsonl\n"
+      "Generated JSONL file with - 2120 max words, 200 samples - at ../dataset/gen-word-2120-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2470 max words, 200 samples - at ../dataset/gen-word-2470-count.jsonl\n"
+      "Generated JSONL file with - 2305 max words, 200 samples - at ../dataset/gen-word-2305-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2375 max words, 200 samples - at ../dataset/gen-word-2375-count.jsonl\n"
+      "Generated JSONL file with - 2905 max words, 200 samples - at ../dataset/gen-word-2905-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3730 max words - at ../dataset/shuffle-word-3730-count.jsonl\n"
+      "Generated JSONL file with - 2090 max words, 200 samples - at ../dataset/gen-word-2090-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2290 max words, 200 samples - at ../dataset/gen-word-2290-count.jsonl\n"
+      "Generated JSONL file with - 2900 max words, 200 samples - at ../dataset/gen-word-2900-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1950 max words, 200 samples - at ../dataset/gen-word-1950-count.jsonl\n"
+      "Generated JSONL file with - 1250 max words, 200 samples - at ../dataset/gen-word-1250-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2175 max words, 200 samples - at ../dataset/gen-word-2175-count.jsonl\n"
+      "Generated JSONL file with - 880 max words, 200 samples - at ../dataset/gen-word-880-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3555 max words - at ../dataset/shuffle-word-3555-count.jsonl\n"
+      "Generated JSONL file with - 2165 max words, 200 samples - at ../dataset/gen-word-2165-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3980 max words - at ../dataset/shuffle-word-3980-count.jsonl\n"
+      "Generated JSONL file with - 1955 max words, 200 samples - at ../dataset/gen-word-1955-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3940 max words - at ../dataset/shuffle-word-3940-count.jsonl\n"
+      "Generated JSONL file with - 2675 max words, 200 samples - at ../dataset/gen-word-2675-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1865 max words, 200 samples - at ../dataset/gen-word-1865-count.jsonl\n"
+      "Generated JSONL file with - 1930 max words, 200 samples - at ../dataset/gen-word-1930-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1650 max words, 200 samples - at ../dataset/gen-word-1650-count.jsonl\n"
+      "Generated JSONL file with - 960 max words, 200 samples - at ../dataset/gen-word-960-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2455 max words, 200 samples - at ../dataset/gen-word-2455-count.jsonl\n"
+      "Generated JSONL file with - 1610 max words, 200 samples - at ../dataset/gen-word-1610-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3845 max words - at ../dataset/shuffle-word-3845-count.jsonl\n"
+      "Generated JSONL file with - 3280 max words, 200 samples - at ../dataset/gen-word-3280-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3875 max words - at ../dataset/shuffle-word-3875-count.jsonl\n"
+      "Generated JSONL file with - 2115 max words, 200 samples - at ../dataset/gen-word-2115-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3945 max words - at ../dataset/shuffle-word-3945-count.jsonl\n"
+      "Generated JSONL file with - 2275 max words, 200 samples - at ../dataset/gen-word-2275-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2140 max words, 200 samples - at ../dataset/gen-word-2140-count.jsonl\n"
+      "Generated JSONL file with - 2950 max words, 200 samples - at ../dataset/gen-word-2950-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3720 max words - at ../dataset/shuffle-word-3720-count.jsonl\n"
+      "Generated JSONL file with - 2670 max words, 200 samples - at ../dataset/gen-word-2670-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3070 max words, 200 samples - at ../dataset/gen-word-3070-count.jsonl\n"
+      "Generated JSONL file with - 2405 max words, 200 samples - at ../dataset/gen-word-2405-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3565 max words - at ../dataset/shuffle-word-3565-count.jsonl\n"
+      "Generated JSONL file with - 1990 max words, 200 samples - at ../dataset/gen-word-1990-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2720 max words, 200 samples - at ../dataset/gen-word-2720-count.jsonl\n"
+      "Generated JSONL file with - 3000 max words, 200 samples - at ../dataset/gen-word-3000-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2815 max words, 200 samples - at ../dataset/gen-word-2815-count.jsonl\n"
+      "Generated JSONL file with - 3415 max words, 200 samples - at ../dataset/gen-word-3415-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3675 max words - at ../dataset/shuffle-word-3675-count.jsonl\n"
+      "Generated JSONL file with - 2030 max words, 200 samples - at ../dataset/gen-word-2030-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2100 max words, 200 samples - at ../dataset/gen-word-2100-count.jsonl\n"
+      "Generated JSONL file with - 995 max words, 200 samples - at ../dataset/gen-word-995-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3915 max words - at ../dataset/shuffle-word-3915-count.jsonl\n"
+      "Generated JSONL file with - 1645 max words, 200 samples - at ../dataset/gen-word-1645-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3440 max words, 200 samples - at ../dataset/gen-word-3440-count.jsonl\n"
+      "Generated JSONL file with - 2225 max words, 200 samples - at ../dataset/gen-word-2225-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3815 max words - at ../dataset/shuffle-word-3815-count.jsonl\n"
+      "Generated JSONL file with - 2615 max words, 200 samples - at ../dataset/gen-word-2615-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3935 max words - at ../dataset/shuffle-word-3935-count.jsonl\n"
+      "Generated JSONL file with - 2050 max words, 200 samples - at ../dataset/gen-word-2050-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3845 max words, 200 samples - at ../dataset/gen-word-3845-count.jsonl\n"
+      "Generated JSONL file with - 2500 max words, 200 samples - at ../dataset/gen-word-2500-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2055 max words, 200 samples - at ../dataset/gen-word-2055-count.jsonl\n"
+      "Generated JSONL file with - 2175 max words, 200 samples - at ../dataset/gen-word-2175-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3620 max words - at ../dataset/shuffle-word-3620-count.jsonl\n"
+      "Generated JSONL file with - 2185 max words, 200 samples - at ../dataset/gen-word-2185-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3695 max words - at ../dataset/shuffle-word-3695-count.jsonl\n"
+      "Generated JSONL file with - 3995 max words, 200 samples - at ../dataset/gen-word-3995-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3935 max words, 200 samples - at ../dataset/gen-word-3935-count.jsonl\n"
+      "Generated JSONL file with - 2435 max words, 200 samples - at ../dataset/gen-word-2435-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3690 max words - at ../dataset/shuffle-word-3690-count.jsonl\n"
+      "Generated JSONL file with - 3430 max words, 200 samples - at ../dataset/gen-word-3430-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3590 max words - at ../dataset/shuffle-word-3590-count.jsonl\n"
+      "Generated JSONL file with - 2535 max words, 200 samples - at ../dataset/gen-word-2535-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2805 max words, 200 samples - at ../dataset/gen-word-2805-count.jsonl\n"
+      "Generated JSONL file with - 2640 max words, 200 samples - at ../dataset/gen-word-2640-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3925 max words - at ../dataset/shuffle-word-3925-count.jsonl\n"
+      "Generated JSONL file with - 3060 max words, 200 samples - at ../dataset/gen-word-3060-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2945 max words, 200 samples - at ../dataset/gen-word-2945-count.jsonl\n"
+      "Generated JSONL file with - 2710 max words, 200 samples - at ../dataset/gen-word-2710-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3585 max words - at ../dataset/shuffle-word-3585-count.jsonl\n"
+      "Generated JSONL file with - 3465 max words, 200 samples - at ../dataset/gen-word-3465-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2115 max words, 200 samples - at ../dataset/gen-word-2115-count.jsonl\n"
+      "Generated JSONL file with - 1655 max words, 200 samples - at ../dataset/gen-word-1655-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2050 max words, 200 samples - at ../dataset/gen-word-2050-count.jsonl\n"
+      "Generated JSONL file with - 2990 max words, 200 samples - at ../dataset/gen-word-2990-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2890 max words, 200 samples - at ../dataset/gen-word-2890-count.jsonl\n"
+      "Generated JSONL file with - 3985 max words, 200 samples - at ../dataset/gen-word-3985-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2765 max words, 200 samples - at ../dataset/gen-word-2765-count.jsonl\n"
+      "Generated JSONL file with - 2125 max words, 200 samples - at ../dataset/gen-word-2125-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3920 max words - at ../dataset/shuffle-word-3920-count.jsonl\n"
+      "Generated JSONL file with - 3185 max words, 200 samples - at ../dataset/gen-word-3185-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3615 max words - at ../dataset/shuffle-word-3615-count.jsonl\n"
+      "Generated JSONL file with - 2080 max words, 200 samples - at ../dataset/gen-word-2080-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2775 max words, 200 samples - at ../dataset/gen-word-2775-count.jsonl\n"
+      "Generated JSONL file with - 2745 max words, 200 samples - at ../dataset/gen-word-2745-count.jsonl\n"
      ]
     },
     {
@@ -11074,441 +11258,441 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3760 max words - at ../dataset/shuffle-word-3760-count.jsonl\n"
+      "Generated JSONL file with - 2095 max words, 200 samples - at ../dataset/gen-word-2095-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3790 max words - at ../dataset/shuffle-word-3790-count.jsonl\n"
+      "Generated JSONL file with - 2580 max words, 200 samples - at ../dataset/gen-word-2580-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3910 max words - at ../dataset/shuffle-word-3910-count.jsonl\n"
+      "Generated JSONL file with - 2630 max words, 200 samples - at ../dataset/gen-word-2630-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3530 max words - at ../dataset/shuffle-word-3530-count.jsonl\n"
+      "Generated JSONL file with - 2445 max words, 200 samples - at ../dataset/gen-word-2445-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2710 max words, 200 samples - at ../dataset/gen-word-2710-count.jsonl\n"
+      "Generated JSONL file with - 2740 max words, 200 samples - at ../dataset/gen-word-2740-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2715 max words, 200 samples - at ../dataset/gen-word-2715-count.jsonl\n"
+      "Generated JSONL file with - 2295 max words, 200 samples - at ../dataset/gen-word-2295-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3500 max words, 200 samples - at ../dataset/gen-word-3500-count.jsonl\n"
+      "Generated JSONL file with - 2400 max words, 200 samples - at ../dataset/gen-word-2400-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3330 max words, 200 samples - at ../dataset/gen-word-3330-count.jsonl\n"
+      "Generated JSONL file with - 2135 max words, 200 samples - at ../dataset/gen-word-2135-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2125 max words, 200 samples - at ../dataset/gen-word-2125-count.jsonl\n"
+      "Generated JSONL file with - 1845 max words, 200 samples - at ../dataset/gen-word-1845-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3780 max words - at ../dataset/shuffle-word-3780-count.jsonl\n"
+      "Generated JSONL file with - 2280 max words, 200 samples - at ../dataset/gen-word-2280-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1040 max words, 200 samples - at ../dataset/gen-word-1040-count.jsonl\n"
+      "Generated JSONL file with - 3035 max words, 200 samples - at ../dataset/gen-word-3035-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3655 max words - at ../dataset/shuffle-word-3655-count.jsonl\n"
+      "Generated JSONL file with - 2180 max words, 200 samples - at ../dataset/gen-word-2180-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3705 max words - at ../dataset/shuffle-word-3705-count.jsonl\n"
+      "Generated JSONL file with - 2470 max words, 200 samples - at ../dataset/gen-word-2470-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1775 max words, 200 samples - at ../dataset/gen-word-1775-count.jsonl\n"
+      "Generated JSONL file with - 3760 max words, 200 samples - at ../dataset/gen-word-3760-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated a single JSONL file with 20 samples (20 token repeat) - 3810 max words - at ../dataset/shuffle-word-3810-count.jsonl\n"
+      "Generated JSONL file with - 3445 max words, 200 samples - at ../dataset/gen-word-3445-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2250 max words, 200 samples - at ../dataset/gen-word-2250-count.jsonl\n"
+      "Generated JSONL file with - 3810 max words, 200 samples - at ../dataset/gen-word-3810-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2895 max words, 200 samples - at ../dataset/gen-word-2895-count.jsonl\n"
+      "Generated JSONL file with - 2700 max words, 200 samples - at ../dataset/gen-word-2700-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3860 max words, 200 samples - at ../dataset/gen-word-3860-count.jsonl\n"
+      "Generated JSONL file with - 3965 max words, 200 samples - at ../dataset/gen-word-3965-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3095 max words, 200 samples - at ../dataset/gen-word-3095-count.jsonl\n"
+      "Generated JSONL file with - 2350 max words, 200 samples - at ../dataset/gen-word-2350-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3835 max words, 200 samples - at ../dataset/gen-word-3835-count.jsonl\n"
+      "Generated JSONL file with - 2560 max words, 200 samples - at ../dataset/gen-word-2560-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2370 max words, 200 samples - at ../dataset/gen-word-2370-count.jsonl\n"
+      "Generated JSONL file with - 2650 max words, 200 samples - at ../dataset/gen-word-2650-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2245 max words, 200 samples - at ../dataset/gen-word-2245-count.jsonl\n"
+      "Generated JSONL file with - 3040 max words, 200 samples - at ../dataset/gen-word-3040-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2190 max words, 200 samples - at ../dataset/gen-word-2190-count.jsonl\n"
+      "Generated JSONL file with - 3230 max words, 200 samples - at ../dataset/gen-word-3230-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3335 max words, 200 samples - at ../dataset/gen-word-3335-count.jsonl\n"
+      "Generated JSONL file with - 2195 max words, 200 samples - at ../dataset/gen-word-2195-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2120 max words, 200 samples - at ../dataset/gen-word-2120-count.jsonl\n"
+      "Generated JSONL file with - 1220 max words, 200 samples - at ../dataset/gen-word-1220-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2340 max words, 200 samples - at ../dataset/gen-word-2340-count.jsonl\n"
+      "Generated JSONL file with - 2945 max words, 200 samples - at ../dataset/gen-word-2945-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2600 max words, 200 samples - at ../dataset/gen-word-2600-count.jsonl\n"
+      "Generated JSONL file with - 2355 max words, 200 samples - at ../dataset/gen-word-2355-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3325 max words, 200 samples - at ../dataset/gen-word-3325-count.jsonl\n"
+      "Generated JSONL file with - 3260 max words, 200 samples - at ../dataset/gen-word-3260-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2565 max words, 200 samples - at ../dataset/gen-word-2565-count.jsonl\n"
+      "Generated JSONL file with - 3285 max words, 200 samples - at ../dataset/gen-word-3285-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3005 max words, 200 samples - at ../dataset/gen-word-3005-count.jsonl\n"
+      "Generated JSONL file with - 2000 max words, 200 samples - at ../dataset/gen-word-2000-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3035 max words, 200 samples - at ../dataset/gen-word-3035-count.jsonl\n"
+      "Generated JSONL file with - 2040 max words, 200 samples - at ../dataset/gen-word-2040-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2335 max words, 200 samples - at ../dataset/gen-word-2335-count.jsonl\n"
+      "Generated JSONL file with - 1455 max words, 200 samples - at ../dataset/gen-word-1455-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1990 max words, 200 samples - at ../dataset/gen-word-1990-count.jsonl\n"
+      "Generated JSONL file with - 2820 max words, 200 samples - at ../dataset/gen-word-2820-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1630 max words, 200 samples - at ../dataset/gen-word-1630-count.jsonl\n"
+      "Generated JSONL file with - 3090 max words, 200 samples - at ../dataset/gen-word-3090-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2735 max words, 200 samples - at ../dataset/gen-word-2735-count.jsonl\n"
+      "Generated JSONL file with - 1925 max words, 200 samples - at ../dataset/gen-word-1925-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3990 max words, 200 samples - at ../dataset/gen-word-3990-count.jsonl\n"
+      "Generated JSONL file with - 3255 max words, 200 samples - at ../dataset/gen-word-3255-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2295 max words, 200 samples - at ../dataset/gen-word-2295-count.jsonl\n"
+      "Generated JSONL file with - 3115 max words, 200 samples - at ../dataset/gen-word-3115-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2445 max words, 200 samples - at ../dataset/gen-word-2445-count.jsonl\n"
+      "Generated JSONL file with - 3375 max words, 200 samples - at ../dataset/gen-word-3375-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3000 max words, 200 samples - at ../dataset/gen-word-3000-count.jsonl\n"
+      "Generated JSONL file with - 3845 max words, 200 samples - at ../dataset/gen-word-3845-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2095 max words, 200 samples - at ../dataset/gen-word-2095-count.jsonl\n"
+      "Generated JSONL file with - 3145 max words, 200 samples - at ../dataset/gen-word-3145-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2345 max words, 200 samples - at ../dataset/gen-word-2345-count.jsonl\n"
+      "Generated JSONL file with - 2835 max words, 200 samples - at ../dataset/gen-word-2835-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2205 max words, 200 samples - at ../dataset/gen-word-2205-count.jsonl\n"
+      "Generated JSONL file with - 2770 max words, 200 samples - at ../dataset/gen-word-2770-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2820 max words, 200 samples - at ../dataset/gen-word-2820-count.jsonl\n"
+      "Generated JSONL file with - 2255 max words, 200 samples - at ../dataset/gen-word-2255-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3375 max words, 200 samples - at ../dataset/gen-word-3375-count.jsonl\n"
+      "Generated JSONL file with - 2750 max words, 200 samples - at ../dataset/gen-word-2750-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3290 max words, 200 samples - at ../dataset/gen-word-3290-count.jsonl\n"
+      "Generated JSONL file with - 3710 max words, 200 samples - at ../dataset/gen-word-3710-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2430 max words, 200 samples - at ../dataset/gen-word-2430-count.jsonl\n"
+      "Generated JSONL file with - 2210 max words, 200 samples - at ../dataset/gen-word-2210-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2560 max words, 200 samples - at ../dataset/gen-word-2560-count.jsonl\n"
+      "Generated JSONL file with - 3770 max words, 200 samples - at ../dataset/gen-word-3770-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2405 max words, 200 samples - at ../dataset/gen-word-2405-count.jsonl\n"
+      "Generated JSONL file with - 2460 max words, 200 samples - at ../dataset/gen-word-2460-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2465 max words, 200 samples - at ../dataset/gen-word-2465-count.jsonl\n"
+      "Generated JSONL file with - 3245 max words, 200 samples - at ../dataset/gen-word-3245-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3850 max words, 200 samples - at ../dataset/gen-word-3850-count.jsonl\n"
+      "Generated JSONL file with - 2860 max words, 200 samples - at ../dataset/gen-word-2860-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1915 max words, 200 samples - at ../dataset/gen-word-1915-count.jsonl\n"
+      "Generated JSONL file with - 3990 max words, 200 samples - at ../dataset/gen-word-3990-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3195 max words, 200 samples - at ../dataset/gen-word-3195-count.jsonl\n"
+      "Generated JSONL file with - 2410 max words, 200 samples - at ../dataset/gen-word-2410-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3390 max words, 200 samples - at ../dataset/gen-word-3390-count.jsonl\n"
+      "Generated JSONL file with - 2875 max words, 200 samples - at ../dataset/gen-word-2875-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3215 max words, 200 samples - at ../dataset/gen-word-3215-count.jsonl\n"
+      "Generated JSONL file with - 3515 max words, 200 samples - at ../dataset/gen-word-3515-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3600 max words, 200 samples - at ../dataset/gen-word-3600-count.jsonl\n"
+      "Generated JSONL file with - 2620 max words, 200 samples - at ../dataset/gen-word-2620-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3115 max words, 200 samples - at ../dataset/gen-word-3115-count.jsonl\n"
+      "Generated JSONL file with - 2160 max words, 200 samples - at ../dataset/gen-word-2160-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2180 max words, 200 samples - at ../dataset/gen-word-2180-count.jsonl\n"
+      "Generated JSONL file with - 2450 max words, 200 samples - at ../dataset/gen-word-2450-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3190 max words, 200 samples - at ../dataset/gen-word-3190-count.jsonl\n"
+      "Generated JSONL file with - 3385 max words, 200 samples - at ../dataset/gen-word-3385-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2075 max words, 200 samples - at ../dataset/gen-word-2075-count.jsonl\n"
+      "Generated JSONL file with - 2330 max words, 200 samples - at ../dataset/gen-word-2330-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2325 max words, 200 samples - at ../dataset/gen-word-2325-count.jsonl\n"
+      "Generated JSONL file with - 2490 max words, 200 samples - at ../dataset/gen-word-2490-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2640 max words, 200 samples - at ../dataset/gen-word-2640-count.jsonl\n"
+      "Generated JSONL file with - 2585 max words, 200 samples - at ../dataset/gen-word-2585-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3085 max words, 200 samples - at ../dataset/gen-word-3085-count.jsonl\n"
+      "Generated JSONL file with - 2420 max words, 200 samples - at ../dataset/gen-word-2420-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2635 max words, 200 samples - at ../dataset/gen-word-2635-count.jsonl\n"
+      "Generated JSONL file with - 1740 max words, 200 samples - at ../dataset/gen-word-1740-count.jsonl\n"
      ]
     },
     {
@@ -11522,308 +11706,280 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3370 max words, 200 samples - at ../dataset/gen-word-3370-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3415 max words, 200 samples - at ../dataset/gen-word-3415-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2415 max words, 200 samples - at ../dataset/gen-word-2415-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3100 max words, 200 samples - at ../dataset/gen-word-3100-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2940 max words, 200 samples - at ../dataset/gen-word-2940-count.jsonl\n"
+      "Generated JSONL file with - 1570 max words, 200 samples - at ../dataset/gen-word-1570-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2155 max words, 200 samples - at ../dataset/gen-word-2155-count.jsonl\n"
+      "Generated JSONL file with - 3030 max words, 200 samples - at ../dataset/gen-word-3030-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2520 max words, 200 samples - at ../dataset/gen-word-2520-count.jsonl\n"
+      "Generated JSONL file with - 1760 max words, 200 samples - at ../dataset/gen-word-1760-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2675 max words, 200 samples - at ../dataset/gen-word-2675-count.jsonl\n"
+      "Generated JSONL file with - 2260 max words, 200 samples - at ../dataset/gen-word-2260-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2020 max words, 200 samples - at ../dataset/gen-word-2020-count.jsonl\n"
+      "Generated JSONL file with - 2550 max words, 200 samples - at ../dataset/gen-word-2550-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2545 max words, 200 samples - at ../dataset/gen-word-2545-count.jsonl\n"
+      "Generated JSONL file with - 2250 max words, 200 samples - at ../dataset/gen-word-2250-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2410 max words, 200 samples - at ../dataset/gen-word-2410-count.jsonl\n"
+      "Generated JSONL file with - 2510 max words, 200 samples - at ../dataset/gen-word-2510-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2330 max words, 200 samples - at ../dataset/gen-word-2330-count.jsonl\n"
+      "Generated JSONL file with - 3125 max words, 200 samples - at ../dataset/gen-word-3125-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2530 max words, 200 samples - at ../dataset/gen-word-2530-count.jsonl\n"
+      "Generated JSONL file with - 3615 max words, 200 samples - at ../dataset/gen-word-3615-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2995 max words, 200 samples - at ../dataset/gen-word-2995-count.jsonl\n"
+      "Generated JSONL file with - 3010 max words, 200 samples - at ../dataset/gen-word-3010-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2145 max words, 200 samples - at ../dataset/gen-word-2145-count.jsonl\n"
+      "Generated JSONL file with - 3955 max words, 200 samples - at ../dataset/gen-word-3955-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 1840 max words, 200 samples - at ../dataset/gen-word-1840-count.jsonl\n"
+      "Generated JSONL file with - 3630 max words, 200 samples - at ../dataset/gen-word-3630-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2790 max words, 200 samples - at ../dataset/gen-word-2790-count.jsonl\n"
+      "Generated JSONL file with - 3270 max words, 200 samples - at ../dataset/gen-word-3270-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2825 max words, 200 samples - at ../dataset/gen-word-2825-count.jsonl\n"
+      "Generated JSONL file with - 2785 max words, 200 samples - at ../dataset/gen-word-2785-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2060 max words, 200 samples - at ../dataset/gen-word-2060-count.jsonl\n"
+      "Generated JSONL file with - 2475 max words, 200 samples - at ../dataset/gen-word-2475-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2755 max words, 200 samples - at ../dataset/gen-word-2755-count.jsonl\n"
+      "Generated JSONL file with - 3840 max words, 200 samples - at ../dataset/gen-word-3840-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2760 max words, 200 samples - at ../dataset/gen-word-2760-count.jsonl\n"
+      "Generated JSONL file with - 2705 max words, 200 samples - at ../dataset/gen-word-2705-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2440 max words, 200 samples - at ../dataset/gen-word-2440-count.jsonl\n"
+      "Generated JSONL file with - 2780 max words, 200 samples - at ../dataset/gen-word-2780-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3725 max words, 200 samples - at ../dataset/gen-word-3725-count.jsonl\n"
+      "Generated JSONL file with - 2395 max words, 200 samples - at ../dataset/gen-word-2395-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3800 max words, 200 samples - at ../dataset/gen-word-3800-count.jsonl\n"
+      "Generated JSONL file with - 2530 max words, 200 samples - at ../dataset/gen-word-2530-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3305 max words, 200 samples - at ../dataset/gen-word-3305-count.jsonl\n"
+      "Generated JSONL file with - 3805 max words, 200 samples - at ../dataset/gen-word-3805-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2585 max words, 200 samples - at ../dataset/gen-word-2585-count.jsonl\n"
+      "Generated JSONL file with - 3205 max words, 200 samples - at ../dataset/gen-word-3205-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2550 max words, 200 samples - at ../dataset/gen-word-2550-count.jsonl\n"
+      "Generated JSONL file with - 2895 max words, 200 samples - at ../dataset/gen-word-2895-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3740 max words, 200 samples - at ../dataset/gen-word-3740-count.jsonl\n"
+      "Generated JSONL file with - 2735 max words, 200 samples - at ../dataset/gen-word-2735-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3525 max words, 200 samples - at ../dataset/gen-word-3525-count.jsonl\n"
+      "Generated JSONL file with - 3190 max words, 200 samples - at ../dataset/gen-word-3190-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2970 max words, 200 samples - at ../dataset/gen-word-2970-count.jsonl\n"
+      "Generated JSONL file with - 3405 max words, 200 samples - at ../dataset/gen-word-3405-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3200 max words, 200 samples - at ../dataset/gen-word-3200-count.jsonl\n"
+      "Generated JSONL file with - 2290 max words, 200 samples - at ../dataset/gen-word-2290-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3975 max words, 200 samples - at ../dataset/gen-word-3975-count.jsonl\n"
+      "Generated JSONL file with - 2805 max words, 200 samples - at ../dataset/gen-word-2805-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2480 max words, 200 samples - at ../dataset/gen-word-2480-count.jsonl\n"
+      "Generated JSONL file with - 3675 max words, 200 samples - at ../dataset/gen-word-3675-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3520 max words, 200 samples - at ../dataset/gen-word-3520-count.jsonl\n"
+      "Generated JSONL file with - 3470 max words, 200 samples - at ../dataset/gen-word-3470-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2740 max words, 200 samples - at ../dataset/gen-word-2740-count.jsonl\n"
+      "Generated JSONL file with - 2365 max words, 200 samples - at ../dataset/gen-word-2365-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2460 max words, 200 samples - at ../dataset/gen-word-2460-count.jsonl\n"
+      "Generated JSONL file with - 2055 max words, 200 samples - at ../dataset/gen-word-2055-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3630 max words, 200 samples - at ../dataset/gen-word-3630-count.jsonl\n"
+      "Generated JSONL file with - 2265 max words, 200 samples - at ../dataset/gen-word-2265-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2685 max words, 200 samples - at ../dataset/gen-word-2685-count.jsonl\n"
+      "Generated JSONL file with - 3490 max words, 200 samples - at ../dataset/gen-word-3490-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3345 max words, 200 samples - at ../dataset/gen-word-3345-count.jsonl\n"
+      "Generated JSONL file with - 3790 max words, 200 samples - at ../dataset/gen-word-3790-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2610 max words, 200 samples - at ../dataset/gen-word-2610-count.jsonl\n"
+      "Generated JSONL file with - 3240 max words, 200 samples - at ../dataset/gen-word-3240-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2750 max words, 200 samples - at ../dataset/gen-word-2750-count.jsonl\n"
+      "Generated JSONL file with - 2300 max words, 200 samples - at ../dataset/gen-word-2300-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3930 max words, 200 samples - at ../dataset/gen-word-3930-count.jsonl\n"
+      "Generated JSONL file with - 3610 max words, 200 samples - at ../dataset/gen-word-3610-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2390 max words, 200 samples - at ../dataset/gen-word-2390-count.jsonl\n"
+      "Generated JSONL file with - 1555 max words, 200 samples - at ../dataset/gen-word-1555-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2380 max words, 200 samples - at ../dataset/gen-word-2380-count.jsonl\n"
+      "Generated JSONL file with - 2545 max words, 200 samples - at ../dataset/gen-word-2545-count.jsonl\n"
      ]
     },
     {
@@ -11837,273 +11993,224 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3220 max words, 200 samples - at ../dataset/gen-word-3220-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2365 max words, 200 samples - at ../dataset/gen-word-2365-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2840 max words, 200 samples - at ../dataset/gen-word-2840-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3905 max words, 200 samples - at ../dataset/gen-word-3905-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2860 max words, 200 samples - at ../dataset/gen-word-2860-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2240 max words, 200 samples - at ../dataset/gen-word-2240-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2260 max words, 200 samples - at ../dataset/gen-word-2260-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3385 max words, 200 samples - at ../dataset/gen-word-3385-count.jsonl\n"
+      "Generated JSONL file with - 2390 max words, 200 samples - at ../dataset/gen-word-2390-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2235 max words, 200 samples - at ../dataset/gen-word-2235-count.jsonl\n"
+      "Generated JSONL file with - 3390 max words, 200 samples - at ../dataset/gen-word-3390-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3685 max words, 200 samples - at ../dataset/gen-word-3685-count.jsonl\n"
+      "Generated JSONL file with - 3305 max words, 200 samples - at ../dataset/gen-word-3305-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2210 max words, 200 samples - at ../dataset/gen-word-2210-count.jsonl\n"
+      "Generated JSONL file with - 2910 max words, 200 samples - at ../dataset/gen-word-2910-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2780 max words, 200 samples - at ../dataset/gen-word-2780-count.jsonl\n"
+      "Generated JSONL file with - 3945 max words, 200 samples - at ../dataset/gen-word-3945-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2570 max words, 200 samples - at ../dataset/gen-word-2570-count.jsonl\n"
+      "Generated JSONL file with - 3950 max words, 200 samples - at ../dataset/gen-word-3950-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3025 max words, 200 samples - at ../dataset/gen-word-3025-count.jsonl\n"
+      "Generated JSONL file with - 2730 max words, 200 samples - at ../dataset/gen-word-2730-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2855 max words, 200 samples - at ../dataset/gen-word-2855-count.jsonl\n"
+      "Generated JSONL file with - 2315 max words, 200 samples - at ../dataset/gen-word-2315-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3355 max words, 200 samples - at ../dataset/gen-word-3355-count.jsonl\n"
+      "Generated JSONL file with - 2035 max words, 200 samples - at ../dataset/gen-word-2035-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2795 max words, 200 samples - at ../dataset/gen-word-2795-count.jsonl\n"
+      "Generated JSONL file with - 3070 max words, 200 samples - at ../dataset/gen-word-3070-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3205 max words, 200 samples - at ../dataset/gen-word-3205-count.jsonl\n"
+      "Generated JSONL file with - 2465 max words, 200 samples - at ../dataset/gen-word-2465-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3585 max words, 200 samples - at ../dataset/gen-word-3585-count.jsonl\n"
+      "Generated JSONL file with - 3400 max words, 200 samples - at ../dataset/gen-word-3400-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3660 max words, 200 samples - at ../dataset/gen-word-3660-count.jsonl\n"
+      "Generated JSONL file with - 3885 max words, 200 samples - at ../dataset/gen-word-3885-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3985 max words, 200 samples - at ../dataset/gen-word-3985-count.jsonl\n"
+      "Generated JSONL file with - 3500 max words, 200 samples - at ../dataset/gen-word-3500-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3430 max words, 200 samples - at ../dataset/gen-word-3430-count.jsonl\n"
+      "Generated JSONL file with - 2885 max words, 200 samples - at ../dataset/gen-word-2885-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3265 max words, 200 samples - at ../dataset/gen-word-3265-count.jsonl\n"
+      "Generated JSONL file with - 3650 max words, 200 samples - at ../dataset/gen-word-3650-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3300 max words, 200 samples - at ../dataset/gen-word-3300-count.jsonl\n"
+      "Generated JSONL file with - 3935 max words, 200 samples - at ../dataset/gen-word-3935-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3680 max words, 200 samples - at ../dataset/gen-word-3680-count.jsonl\n"
+      "Generated JSONL file with - 3665 max words, 200 samples - at ../dataset/gen-word-3665-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2660 max words, 200 samples - at ../dataset/gen-word-2660-count.jsonl\n"
+      "Generated JSONL file with - 2170 max words, 200 samples - at ../dataset/gen-word-2170-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3400 max words, 200 samples - at ../dataset/gen-word-3400-count.jsonl\n"
+      "Generated JSONL file with - 3550 max words, 200 samples - at ../dataset/gen-word-3550-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3470 max words, 200 samples - at ../dataset/gen-word-3470-count.jsonl\n"
+      "Generated JSONL file with - 2975 max words, 200 samples - at ../dataset/gen-word-2975-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2725 max words, 200 samples - at ../dataset/gen-word-2725-count.jsonl\n"
+      "Generated JSONL file with - 2590 max words, 200 samples - at ../dataset/gen-word-2590-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3560 max words, 200 samples - at ../dataset/gen-word-3560-count.jsonl\n"
+      "Generated JSONL file with - 2020 max words, 200 samples - at ../dataset/gen-word-2020-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3785 max words, 200 samples - at ../dataset/gen-word-3785-count.jsonl\n"
+      "Generated JSONL file with - 2960 max words, 200 samples - at ../dataset/gen-word-2960-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2690 max words, 200 samples - at ../dataset/gen-word-2690-count.jsonl\n"
+      "Generated JSONL file with - 2855 max words, 200 samples - at ../dataset/gen-word-2855-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2495 max words, 200 samples - at ../dataset/gen-word-2495-count.jsonl\n"
+      "Generated JSONL file with - 2865 max words, 200 samples - at ../dataset/gen-word-2865-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2645 max words, 200 samples - at ../dataset/gen-word-2645-count.jsonl\n"
+      "Generated JSONL file with - 3865 max words, 200 samples - at ../dataset/gen-word-3865-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3185 max words, 200 samples - at ../dataset/gen-word-3185-count.jsonl\n"
+      "Generated JSONL file with - 2760 max words, 200 samples - at ../dataset/gen-word-2760-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2105 max words, 200 samples - at ../dataset/gen-word-2105-count.jsonl\n"
+      "Generated JSONL file with - 2850 max words, 200 samples - at ../dataset/gen-word-2850-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2655 max words, 200 samples - at ../dataset/gen-word-2655-count.jsonl\n"
+      "Generated JSONL file with - 3525 max words, 200 samples - at ../dataset/gen-word-3525-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3360 max words, 200 samples - at ../dataset/gen-word-3360-count.jsonl\n"
+      "Generated JSONL file with - 2810 max words, 200 samples - at ../dataset/gen-word-2810-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3260 max words, 200 samples - at ../dataset/gen-word-3260-count.jsonl\n"
+      "Generated JSONL file with - 3265 max words, 200 samples - at ../dataset/gen-word-3265-count.jsonl\n"
      ]
     },
     {
@@ -12117,164203 +12224,12682 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3620 max words, 200 samples - at ../dataset/gen-word-3620-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3275 max words, 200 samples - at ../dataset/gen-word-3275-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2280 max words, 200 samples - at ../dataset/gen-word-2280-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3515 max words, 200 samples - at ../dataset/gen-word-3515-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2590 max words, 200 samples - at ../dataset/gen-word-2590-count.jsonl\n"
+      "Generated JSONL file with - 3555 max words, 200 samples - at ../dataset/gen-word-3555-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2355 max words, 200 samples - at ../dataset/gen-word-2355-count.jsonl\n"
+      "Generated JSONL file with - 3355 max words, 200 samples - at ../dataset/gen-word-3355-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2575 max words, 200 samples - at ../dataset/gen-word-2575-count.jsonl\n"
+      "Generated JSONL file with - 3940 max words, 200 samples - at ../dataset/gen-word-3940-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 2980 max words, 200 samples - at ../dataset/gen-word-2980-count.jsonl\n"
+      "Generated JSONL file with - 3660 max words, 200 samples - at ../dataset/gen-word-3660-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3380 max words, 200 samples - at ../dataset/gen-word-3380-count.jsonl\n"
+      "Generated JSONL file with - 3685 max words, 200 samples - at ../dataset/gen-word-3685-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3535 max words, 200 samples - at ../dataset/gen-word-3535-count.jsonl\n"
+      "Generated JSONL file with - 3175 max words, 200 samples - at ../dataset/gen-word-3175-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3165 max words, 200 samples - at ../dataset/gen-word-3165-count.jsonl\n"
+      "Generated JSONL file with - 2610 max words, 200 samples - at ../dataset/gen-word-2610-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3505 max words, 200 samples - at ../dataset/gen-word-3505-count.jsonl\n"
+      "Generated JSONL file with - 2965 max words, 200 samples - at ../dataset/gen-word-2965-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3580 max words, 200 samples - at ../dataset/gen-word-3580-count.jsonl\n"
+      "Generated JSONL file with - 3020 max words, 200 samples - at ../dataset/gen-word-3020-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3255 max words, 200 samples - at ../dataset/gen-word-3255-count.jsonl\n"
+      "Generated JSONL file with - 3170 max words, 200 samples - at ../dataset/gen-word-3170-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Generated JSONL file with - 3210 max words, 200 samples - at ../dataset/gen-word-3210-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3690 max words, 200 samples - at ../dataset/gen-word-3690-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3765 max words, 200 samples - at ../dataset/gen-word-3765-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3715 max words, 200 samples - at ../dataset/gen-word-3715-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3080 max words, 200 samples - at ../dataset/gen-word-3080-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3450 max words, 200 samples - at ../dataset/gen-word-3450-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3145 max words, 200 samples - at ../dataset/gen-word-3145-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3065 max words, 200 samples - at ../dataset/gen-word-3065-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3340 max words, 200 samples - at ../dataset/gen-word-3340-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3605 max words, 200 samples - at ../dataset/gen-word-3605-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2865 max words, 200 samples - at ../dataset/gen-word-2865-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3770 max words, 200 samples - at ../dataset/gen-word-3770-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3710 max words, 200 samples - at ../dataset/gen-word-3710-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3240 max words, 200 samples - at ../dataset/gen-word-3240-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3495 max words, 200 samples - at ../dataset/gen-word-3495-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3650 max words, 200 samples - at ../dataset/gen-word-3650-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3695 max words, 200 samples - at ../dataset/gen-word-3695-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3810 max words, 200 samples - at ../dataset/gen-word-3810-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2285 max words, 200 samples - at ../dataset/gen-word-2285-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2605 max words, 200 samples - at ../dataset/gen-word-2605-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2960 max words, 200 samples - at ../dataset/gen-word-2960-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3670 max words, 200 samples - at ../dataset/gen-word-3670-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2975 max words, 200 samples - at ../dataset/gen-word-2975-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3960 max words, 200 samples - at ../dataset/gen-word-3960-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3595 max words, 200 samples - at ../dataset/gen-word-3595-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3175 max words, 200 samples - at ../dataset/gen-word-3175-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 4000 max words, 200 samples - at ../dataset/gen-word-4000-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2505 max words, 200 samples - at ../dataset/gen-word-2505-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3055 max words, 200 samples - at ../dataset/gen-word-3055-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3950 max words, 200 samples - at ../dataset/gen-word-3950-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3830 max words, 200 samples - at ../dataset/gen-word-3830-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3760 max words, 200 samples - at ../dataset/gen-word-3760-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2990 max words, 200 samples - at ../dataset/gen-word-2990-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3445 max words, 200 samples - at ../dataset/gen-word-3445-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3540 max words, 200 samples - at ../dataset/gen-word-3540-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3625 max words, 200 samples - at ../dataset/gen-word-3625-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3820 max words, 200 samples - at ../dataset/gen-word-3820-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2910 max words, 200 samples - at ../dataset/gen-word-2910-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3295 max words, 200 samples - at ../dataset/gen-word-3295-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2595 max words, 200 samples - at ../dataset/gen-word-2595-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3405 max words, 200 samples - at ../dataset/gen-word-3405-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3465 max words, 200 samples - at ../dataset/gen-word-3465-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3665 max words, 200 samples - at ../dataset/gen-word-3665-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3900 max words, 200 samples - at ../dataset/gen-word-3900-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3635 max words, 200 samples - at ../dataset/gen-word-3635-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2680 max words, 200 samples - at ../dataset/gen-word-2680-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3705 max words, 200 samples - at ../dataset/gen-word-3705-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2900 max words, 200 samples - at ../dataset/gen-word-2900-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3480 max words, 200 samples - at ../dataset/gen-word-3480-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3050 max words, 200 samples - at ../dataset/gen-word-3050-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2905 max words, 200 samples - at ../dataset/gen-word-2905-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3750 max words, 200 samples - at ../dataset/gen-word-3750-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3910 max words, 200 samples - at ../dataset/gen-word-3910-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2885 max words, 200 samples - at ../dataset/gen-word-2885-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3120 max words, 200 samples - at ../dataset/gen-word-3120-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3310 max words, 200 samples - at ../dataset/gen-word-3310-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3135 max words, 200 samples - at ../dataset/gen-word-3135-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3885 max words, 200 samples - at ../dataset/gen-word-3885-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3155 max words, 200 samples - at ../dataset/gen-word-3155-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2800 max words, 200 samples - at ../dataset/gen-word-2800-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3840 max words, 200 samples - at ../dataset/gen-word-3840-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3790 max words, 200 samples - at ../dataset/gen-word-3790-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3875 max words, 200 samples - at ../dataset/gen-word-3875-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3730 max words, 200 samples - at ../dataset/gen-word-3730-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3870 max words, 200 samples - at ../dataset/gen-word-3870-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3160 max words, 200 samples - at ../dataset/gen-word-3160-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3015 max words, 200 samples - at ../dataset/gen-word-3015-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3455 max words, 200 samples - at ../dataset/gen-word-3455-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3615 max words, 200 samples - at ../dataset/gen-word-3615-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3030 max words, 200 samples - at ../dataset/gen-word-3030-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3815 max words, 200 samples - at ../dataset/gen-word-3815-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2930 max words, 200 samples - at ../dataset/gen-word-2930-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3880 max words, 200 samples - at ../dataset/gen-word-3880-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3865 max words, 200 samples - at ../dataset/gen-word-3865-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3920 max words, 200 samples - at ../dataset/gen-word-3920-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3855 max words, 200 samples - at ../dataset/gen-word-3855-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3225 max words, 200 samples - at ../dataset/gen-word-3225-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2625 max words, 200 samples - at ../dataset/gen-word-2625-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3245 max words, 200 samples - at ../dataset/gen-word-3245-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3060 max words, 200 samples - at ../dataset/gen-word-3060-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3105 max words, 200 samples - at ../dataset/gen-word-3105-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3170 max words, 200 samples - at ../dataset/gen-word-3170-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3315 max words, 200 samples - at ../dataset/gen-word-3315-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3460 max words, 200 samples - at ../dataset/gen-word-3460-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3230 max words, 200 samples - at ../dataset/gen-word-3230-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3420 max words, 200 samples - at ../dataset/gen-word-3420-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3320 max words, 200 samples - at ../dataset/gen-word-3320-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3180 max words, 200 samples - at ../dataset/gen-word-3180-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2845 max words, 200 samples - at ../dataset/gen-word-2845-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3350 max words, 200 samples - at ../dataset/gen-word-3350-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2925 max words, 200 samples - at ../dataset/gen-word-2925-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3925 max words, 200 samples - at ../dataset/gen-word-3925-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3130 max words, 200 samples - at ../dataset/gen-word-3130-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3140 max words, 200 samples - at ../dataset/gen-word-3140-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 2770 max words, 200 samples - at ../dataset/gen-word-2770-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3250 max words, 200 samples - at ../dataset/gen-word-3250-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3020 max words, 200 samples - at ../dataset/gen-word-3020-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3110 max words, 200 samples - at ../dataset/gen-word-3110-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3010 max words, 200 samples - at ../dataset/gen-word-3010-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3435 max words, 200 samples - at ../dataset/gen-word-3435-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3995 max words, 200 samples - at ../dataset/gen-word-3995-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3895 max words, 200 samples - at ../dataset/gen-word-3895-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3270 max words, 200 samples - at ../dataset/gen-word-3270-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3075 max words, 200 samples - at ../dataset/gen-word-3075-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3745 max words, 200 samples - at ../dataset/gen-word-3745-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3955 max words, 200 samples - at ../dataset/gen-word-3955-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3235 max words, 200 samples - at ../dataset/gen-word-3235-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3565 max words, 200 samples - at ../dataset/gen-word-3565-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3640 max words, 200 samples - at ../dataset/gen-word-3640-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3610 max words, 200 samples - at ../dataset/gen-word-3610-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3590 max words, 200 samples - at ../dataset/gen-word-3590-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3965 max words, 200 samples - at ../dataset/gen-word-3965-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3970 max words, 200 samples - at ../dataset/gen-word-3970-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3645 max words, 200 samples - at ../dataset/gen-word-3645-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3735 max words, 200 samples - at ../dataset/gen-word-3735-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3555 max words, 200 samples - at ../dataset/gen-word-3555-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3700 max words, 200 samples - at ../dataset/gen-word-3700-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3545 max words, 200 samples - at ../dataset/gen-word-3545-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3655 max words, 200 samples - at ../dataset/gen-word-3655-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3980 max words, 200 samples - at ../dataset/gen-word-3980-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3825 max words, 200 samples - at ../dataset/gen-word-3825-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3720 max words, 200 samples - at ../dataset/gen-word-3720-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3915 max words, 200 samples - at ../dataset/gen-word-3915-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3675 max words, 200 samples - at ../dataset/gen-word-3675-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3945 max words, 200 samples - at ../dataset/gen-word-3945-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3890 max words, 200 samples - at ../dataset/gen-word-3890-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3940 max words, 200 samples - at ../dataset/gen-word-3940-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Generated JSONL file with - 3805 max words, 200 samples - at ../dataset/gen-word-3805-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "## Done ##\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "total 3.4G\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "drwxr-xr-x  2 root root   72K Sep  1 16:08 .\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "drwxr-xr-x 14 root root   302 Sep  1 16:08 ..\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   21K Sep  1 16:08 gen-word-10-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  108K Sep  1 16:08 gen-word-100-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.0M Sep  1 16:08 gen-word-1000-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.0M Sep  1 16:08 gen-word-1005-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.0M Sep  1 16:08 gen-word-1010-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.0M Sep  1 16:08 gen-word-1015-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.0M Sep  1 16:08 gen-word-1020-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.0M Sep  1 16:08 gen-word-1025-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.0M Sep  1 16:08 gen-word-1030-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.0M Sep  1 16:08 gen-word-1035-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.1M Sep  1 16:08 gen-word-1040-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.0M Sep  1 16:08 gen-word-1045-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  116K Sep  1 16:08 gen-word-105-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.1M Sep  1 16:08 gen-word-1050-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.1M Sep  1 16:08 gen-word-1055-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.1M Sep  1 16:08 gen-word-1060-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.1M Sep  1 16:08 gen-word-1065-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.1M Sep  1 16:08 gen-word-1070-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.1M Sep  1 16:08 gen-word-1075-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.1M Sep  1 16:08 gen-word-1080-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.1M Sep  1 16:08 gen-word-1085-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.2M Sep  1 16:08 gen-word-1090-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.2M Sep  1 16:08 gen-word-1095-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  116K Sep  1 16:08 gen-word-110-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.2M Sep  1 16:08 gen-word-1100-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.2M Sep  1 16:08 gen-word-1105-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.2M Sep  1 16:08 gen-word-1110-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.2M Sep  1 16:08 gen-word-1115-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.2M Sep  1 16:08 gen-word-1120-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.2M Sep  1 16:08 gen-word-1125-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.2M Sep  1 16:08 gen-word-1130-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.2M Sep  1 16:08 gen-word-1135-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.2M Sep  1 16:08 gen-word-1140-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.2M Sep  1 16:08 gen-word-1145-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  123K Sep  1 16:08 gen-word-115-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.3M Sep  1 16:08 gen-word-1150-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.3M Sep  1 16:08 gen-word-1155-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.3M Sep  1 16:08 gen-word-1160-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.3M Sep  1 16:08 gen-word-1165-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.3M Sep  1 16:08 gen-word-1170-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.3M Sep  1 16:08 gen-word-1175-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.3M Sep  1 16:08 gen-word-1180-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.3M Sep  1 16:08 gen-word-1185-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.3M Sep  1 16:08 gen-word-1190-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.3M Sep  1 16:08 gen-word-1195-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  126K Sep  1 16:08 gen-word-120-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.4M Sep  1 16:08 gen-word-1200-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.3M Sep  1 16:08 gen-word-1205-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.4M Sep  1 16:08 gen-word-1210-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.4M Sep  1 16:08 gen-word-1215-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.4M Sep  1 16:08 gen-word-1220-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.4M Sep  1 16:08 gen-word-1225-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.4M Sep  1 16:08 gen-word-1230-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.4M Sep  1 16:08 gen-word-1235-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.4M Sep  1 16:08 gen-word-1240-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.4M Sep  1 16:08 gen-word-1245-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  130K Sep  1 16:08 gen-word-125-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.4M Sep  1 16:08 gen-word-1250-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.4M Sep  1 16:08 gen-word-1255-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.5M Sep  1 16:08 gen-word-1260-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.5M Sep  1 16:08 gen-word-1265-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.5M Sep  1 16:08 gen-word-1270-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.5M Sep  1 16:08 gen-word-1275-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.5M Sep  1 16:08 gen-word-1280-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.5M Sep  1 16:08 gen-word-1285-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.5M Sep  1 16:08 gen-word-1290-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.5M Sep  1 16:08 gen-word-1295-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  133K Sep  1 16:08 gen-word-130-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.5M Sep  1 16:08 gen-word-1300-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.5M Sep  1 16:08 gen-word-1305-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.6M Sep  1 16:08 gen-word-1310-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.6M Sep  1 16:08 gen-word-1315-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.6M Sep  1 16:08 gen-word-1320-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.6M Sep  1 16:08 gen-word-1325-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.6M Sep  1 16:08 gen-word-1330-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.6M Sep  1 16:08 gen-word-1335-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.6M Sep  1 16:08 gen-word-1340-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.6M Sep  1 16:08 gen-word-1345-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  141K Sep  1 16:08 gen-word-135-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.6M Sep  1 16:08 gen-word-1350-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.6M Sep  1 16:08 gen-word-1355-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.7M Sep  1 16:08 gen-word-1360-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.7M Sep  1 16:08 gen-word-1365-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.7M Sep  1 16:08 gen-word-1370-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.7M Sep  1 16:08 gen-word-1375-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.7M Sep  1 16:08 gen-word-1380-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.7M Sep  1 16:08 gen-word-1385-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.7M Sep  1 16:08 gen-word-1390-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.7M Sep  1 16:08 gen-word-1395-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  146K Sep  1 16:08 gen-word-140-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.7M Sep  1 16:08 gen-word-1400-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.7M Sep  1 16:08 gen-word-1405-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.8M Sep  1 16:08 gen-word-1410-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.8M Sep  1 16:08 gen-word-1415-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.8M Sep  1 16:08 gen-word-1420-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.8M Sep  1 16:08 gen-word-1425-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.8M Sep  1 16:08 gen-word-1430-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.8M Sep  1 16:08 gen-word-1435-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.8M Sep  1 16:08 gen-word-1440-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.8M Sep  1 16:08 gen-word-1445-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  150K Sep  1 16:08 gen-word-145-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.8M Sep  1 16:08 gen-word-1450-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.8M Sep  1 16:08 gen-word-1455-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.8M Sep  1 16:08 gen-word-1460-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.8M Sep  1 16:08 gen-word-1465-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.9M Sep  1 16:08 gen-word-1470-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.9M Sep  1 16:08 gen-word-1475-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.9M Sep  1 16:08 gen-word-1480-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.9M Sep  1 16:08 gen-word-1485-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.9M Sep  1 16:08 gen-word-1490-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.9M Sep  1 16:08 gen-word-1495-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   24K Sep  1 16:08 gen-word-15-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  157K Sep  1 16:08 gen-word-150-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.9M Sep  1 16:08 gen-word-1500-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.9M Sep  1 16:08 gen-word-1505-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.9M Sep  1 16:08 gen-word-1510-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.9M Sep  1 16:08 gen-word-1515-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.9M Sep  1 16:08 gen-word-1520-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.0M Sep  1 16:08 gen-word-1525-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.0M Sep  1 16:08 gen-word-1530-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.0M Sep  1 16:08 gen-word-1535-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.0M Sep  1 16:08 gen-word-1540-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.0M Sep  1 16:08 gen-word-1545-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  161K Sep  1 16:08 gen-word-155-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.0M Sep  1 16:08 gen-word-1550-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.0M Sep  1 16:08 gen-word-1555-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.0M Sep  1 16:08 gen-word-1560-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.1M Sep  1 16:08 gen-word-1565-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.1M Sep  1 16:08 gen-word-1570-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.0M Sep  1 16:08 gen-word-1575-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.1M Sep  1 16:08 gen-word-1580-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.1M Sep  1 16:08 gen-word-1585-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.1M Sep  1 16:08 gen-word-1590-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.1M Sep  1 16:08 gen-word-1595-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  170K Sep  1 16:08 gen-word-160-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.1M Sep  1 16:08 gen-word-1600-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.1M Sep  1 16:08 gen-word-1605-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.1M Sep  1 16:08 gen-word-1610-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.1M Sep  1 16:08 gen-word-1615-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.1M Sep  1 16:08 gen-word-1620-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.2M Sep  1 16:08 gen-word-1625-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.2M Sep  1 16:08 gen-word-1630-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.2M Sep  1 16:08 gen-word-1635-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.2M Sep  1 16:08 gen-word-1640-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.2M Sep  1 16:08 gen-word-1645-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  172K Sep  1 16:08 gen-word-165-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.2M Sep  1 16:08 gen-word-1650-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.2M Sep  1 16:08 gen-word-1655-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.2M Sep  1 16:08 gen-word-1660-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.2M Sep  1 16:08 gen-word-1665-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.2M Sep  1 16:08 gen-word-1670-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.2M Sep  1 16:08 gen-word-1675-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.3M Sep  1 16:08 gen-word-1680-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.3M Sep  1 16:08 gen-word-1685-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.3M Sep  1 16:08 gen-word-1690-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.3M Sep  1 16:08 gen-word-1695-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  174K Sep  1 16:08 gen-word-170-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.3M Sep  1 16:08 gen-word-1700-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.3M Sep  1 16:08 gen-word-1705-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.3M Sep  1 16:08 gen-word-1710-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.3M Sep  1 16:08 gen-word-1715-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.3M Sep  1 16:08 gen-word-1720-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.3M Sep  1 16:08 gen-word-1725-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.4M Sep  1 16:08 gen-word-1730-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.4M Sep  1 16:08 gen-word-1735-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.4M Sep  1 16:08 gen-word-1740-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.4M Sep  1 16:08 gen-word-1745-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  182K Sep  1 16:08 gen-word-175-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.4M Sep  1 16:08 gen-word-1750-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.4M Sep  1 16:08 gen-word-1755-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.4M Sep  1 16:08 gen-word-1760-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.4M Sep  1 16:08 gen-word-1765-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.4M Sep  1 16:08 gen-word-1770-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.4M Sep  1 16:08 gen-word-1775-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.5M Sep  1 16:08 gen-word-1780-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.5M Sep  1 16:08 gen-word-1785-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.5M Sep  1 16:08 gen-word-1790-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.5M Sep  1 16:08 gen-word-1795-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  187K Sep  1 16:08 gen-word-180-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.5M Sep  1 16:08 gen-word-1800-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.5M Sep  1 16:08 gen-word-1805-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.5M Sep  1 16:08 gen-word-1810-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.5M Sep  1 16:08 gen-word-1815-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.5M Sep  1 16:08 gen-word-1820-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.5M Sep  1 16:08 gen-word-1825-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.5M Sep  1 16:08 gen-word-1830-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.6M Sep  1 16:08 gen-word-1835-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.6M Sep  1 16:08 gen-word-1840-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.6M Sep  1 16:08 gen-word-1845-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  187K Sep  1 16:08 gen-word-185-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.6M Sep  1 16:08 gen-word-1850-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.6M Sep  1 16:08 gen-word-1855-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.6M Sep  1 16:08 gen-word-1860-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.6M Sep  1 16:08 gen-word-1865-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.6M Sep  1 16:08 gen-word-1870-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.6M Sep  1 16:08 gen-word-1875-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.6M Sep  1 16:08 gen-word-1880-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.7M Sep  1 16:08 gen-word-1885-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.7M Sep  1 16:08 gen-word-1890-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.7M Sep  1 16:08 gen-word-1895-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  196K Sep  1 16:08 gen-word-190-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.7M Sep  1 16:08 gen-word-1900-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.7M Sep  1 16:08 gen-word-1905-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.7M Sep  1 16:08 gen-word-1910-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.7M Sep  1 16:08 gen-word-1915-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.7M Sep  1 16:08 gen-word-1920-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.7M Sep  1 16:08 gen-word-1925-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.7M Sep  1 16:08 gen-word-1930-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.7M Sep  1 16:08 gen-word-1935-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.7M Sep  1 16:08 gen-word-1940-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.8M Sep  1 16:08 gen-word-1945-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  199K Sep  1 16:08 gen-word-195-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.8M Sep  1 16:08 gen-word-1950-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.8M Sep  1 16:08 gen-word-1955-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.8M Sep  1 16:08 gen-word-1960-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.8M Sep  1 16:08 gen-word-1965-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.8M Sep  1 16:08 gen-word-1970-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.8M Sep  1 16:08 gen-word-1975-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.8M Sep  1 16:08 gen-word-1980-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.8M Sep  1 16:08 gen-word-1985-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.8M Sep  1 16:08 gen-word-1990-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.9M Sep  1 16:08 gen-word-1995-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   30K Sep  1 16:08 gen-word-20-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  208K Sep  1 16:08 gen-word-200-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.9M Sep  1 16:08 gen-word-2000-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.9M Sep  1 16:08 gen-word-2005-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.9M Sep  1 16:08 gen-word-2010-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.9M Sep  1 16:08 gen-word-2015-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.9M Sep  1 16:08 gen-word-2020-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.9M Sep  1 16:08 gen-word-2025-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.9M Sep  1 16:08 gen-word-2030-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.9M Sep  1 16:08 gen-word-2035-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.9M Sep  1 16:08 gen-word-2040-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.9M Sep  1 16:08 gen-word-2045-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  213K Sep  1 16:08 gen-word-205-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  3.9M Sep  1 16:08 gen-word-2050-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.0M Sep  1 16:08 gen-word-2055-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.0M Sep  1 16:08 gen-word-2060-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.0M Sep  1 16:08 gen-word-2065-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.0M Sep  1 16:08 gen-word-2070-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.0M Sep  1 16:08 gen-word-2075-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.0M Sep  1 16:08 gen-word-2080-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.0M Sep  1 16:08 gen-word-2085-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.0M Sep  1 16:08 gen-word-2090-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.0M Sep  1 16:08 gen-word-2095-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  213K Sep  1 16:08 gen-word-210-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.1M Sep  1 16:08 gen-word-2100-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.1M Sep  1 16:08 gen-word-2105-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.1M Sep  1 16:08 gen-word-2110-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.1M Sep  1 16:08 gen-word-2115-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.1M Sep  1 16:08 gen-word-2120-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.1M Sep  1 16:08 gen-word-2125-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.1M Sep  1 16:08 gen-word-2130-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.1M Sep  1 16:08 gen-word-2135-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.1M Sep  1 16:08 gen-word-2140-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.2M Sep  1 16:08 gen-word-2145-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  224K Sep  1 16:08 gen-word-215-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.1M Sep  1 16:08 gen-word-2150-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.2M Sep  1 16:08 gen-word-2155-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.2M Sep  1 16:08 gen-word-2160-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.2M Sep  1 16:08 gen-word-2165-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.2M Sep  1 16:08 gen-word-2170-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.2M Sep  1 16:08 gen-word-2175-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.2M Sep  1 16:08 gen-word-2180-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.2M Sep  1 16:08 gen-word-2185-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.2M Sep  1 16:08 gen-word-2190-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.2M Sep  1 16:08 gen-word-2195-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  227K Sep  1 16:08 gen-word-220-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.2M Sep  1 16:08 gen-word-2200-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.2M Sep  1 16:08 gen-word-2205-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.3M Sep  1 16:08 gen-word-2210-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.3M Sep  1 16:08 gen-word-2215-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.3M Sep  1 16:08 gen-word-2220-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.3M Sep  1 16:08 gen-word-2225-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.3M Sep  1 16:08 gen-word-2230-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.3M Sep  1 16:08 gen-word-2235-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.3M Sep  1 16:08 gen-word-2240-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.3M Sep  1 16:08 gen-word-2245-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  231K Sep  1 16:08 gen-word-225-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.3M Sep  1 16:08 gen-word-2250-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.4M Sep  1 16:08 gen-word-2255-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.4M Sep  1 16:08 gen-word-2260-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.4M Sep  1 16:08 gen-word-2265-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.4M Sep  1 16:08 gen-word-2270-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.4M Sep  1 16:08 gen-word-2275-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.4M Sep  1 16:08 gen-word-2280-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.4M Sep  1 16:08 gen-word-2285-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.4M Sep  1 16:08 gen-word-2290-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.4M Sep  1 16:08 gen-word-2295-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  230K Sep  1 16:08 gen-word-230-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.4M Sep  1 16:08 gen-word-2300-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.4M Sep  1 16:08 gen-word-2305-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.5M Sep  1 16:08 gen-word-2310-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.5M Sep  1 16:08 gen-word-2315-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.5M Sep  1 16:08 gen-word-2320-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.5M Sep  1 16:08 gen-word-2325-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.5M Sep  1 16:08 gen-word-2330-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.5M Sep  1 16:08 gen-word-2335-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.5M Sep  1 16:08 gen-word-2340-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.5M Sep  1 16:08 gen-word-2345-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  236K Sep  1 16:08 gen-word-235-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.5M Sep  1 16:08 gen-word-2350-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.5M Sep  1 16:08 gen-word-2355-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.5M Sep  1 16:08 gen-word-2360-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.5M Sep  1 16:08 gen-word-2365-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.5M Sep  1 16:08 gen-word-2370-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.6M Sep  1 16:08 gen-word-2375-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.6M Sep  1 16:08 gen-word-2380-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.6M Sep  1 16:08 gen-word-2385-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.6M Sep  1 16:08 gen-word-2390-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.6M Sep  1 16:08 gen-word-2395-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  248K Sep  1 16:08 gen-word-240-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.6M Sep  1 16:08 gen-word-2400-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.6M Sep  1 16:08 gen-word-2405-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.6M Sep  1 16:08 gen-word-2410-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.7M Sep  1 16:08 gen-word-2415-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.7M Sep  1 16:08 gen-word-2420-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.7M Sep  1 16:08 gen-word-2425-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.7M Sep  1 16:08 gen-word-2430-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.7M Sep  1 16:08 gen-word-2435-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.7M Sep  1 16:08 gen-word-2440-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.7M Sep  1 16:08 gen-word-2445-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  247K Sep  1 16:08 gen-word-245-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.7M Sep  1 16:08 gen-word-2450-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.7M Sep  1 16:08 gen-word-2455-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.7M Sep  1 16:08 gen-word-2460-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.8M Sep  1 16:08 gen-word-2465-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.8M Sep  1 16:08 gen-word-2470-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.8M Sep  1 16:08 gen-word-2475-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.8M Sep  1 16:08 gen-word-2480-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.8M Sep  1 16:08 gen-word-2485-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.8M Sep  1 16:08 gen-word-2490-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.8M Sep  1 16:08 gen-word-2495-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   35K Sep  1 16:08 gen-word-25-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  248K Sep  1 16:08 gen-word-250-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.8M Sep  1 16:08 gen-word-2500-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.8M Sep  1 16:08 gen-word-2505-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.8M Sep  1 16:08 gen-word-2510-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.9M Sep  1 16:08 gen-word-2515-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.8M Sep  1 16:08 gen-word-2520-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.9M Sep  1 16:08 gen-word-2525-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.9M Sep  1 16:08 gen-word-2530-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.9M Sep  1 16:08 gen-word-2535-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.9M Sep  1 16:08 gen-word-2540-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.9M Sep  1 16:08 gen-word-2545-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  264K Sep  1 16:08 gen-word-255-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.9M Sep  1 16:08 gen-word-2550-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.9M Sep  1 16:08 gen-word-2555-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.9M Sep  1 16:08 gen-word-2560-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  4.9M Sep  1 16:08 gen-word-2565-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.0M Sep  1 16:08 gen-word-2570-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.0M Sep  1 16:08 gen-word-2575-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.0M Sep  1 16:08 gen-word-2580-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.0M Sep  1 16:08 gen-word-2585-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.0M Sep  1 16:08 gen-word-2590-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.0M Sep  1 16:08 gen-word-2595-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  258K Sep  1 16:08 gen-word-260-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.0M Sep  1 16:08 gen-word-2600-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.0M Sep  1 16:08 gen-word-2605-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.0M Sep  1 16:08 gen-word-2610-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.0M Sep  1 16:08 gen-word-2615-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.1M Sep  1 16:08 gen-word-2620-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.1M Sep  1 16:08 gen-word-2625-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.1M Sep  1 16:08 gen-word-2630-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.1M Sep  1 16:08 gen-word-2635-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.1M Sep  1 16:08 gen-word-2640-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.1M Sep  1 16:08 gen-word-2645-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  273K Sep  1 16:08 gen-word-265-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.1M Sep  1 16:08 gen-word-2650-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.1M Sep  1 16:08 gen-word-2655-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.1M Sep  1 16:08 gen-word-2660-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.1M Sep  1 16:08 gen-word-2665-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.1M Sep  1 16:08 gen-word-2670-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.2M Sep  1 16:08 gen-word-2675-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.2M Sep  1 16:08 gen-word-2680-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.2M Sep  1 16:08 gen-word-2685-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.2M Sep  1 16:08 gen-word-2690-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.2M Sep  1 16:08 gen-word-2695-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  273K Sep  1 16:08 gen-word-270-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.2M Sep  1 16:08 gen-word-2700-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.2M Sep  1 16:08 gen-word-2705-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.2M Sep  1 16:08 gen-word-2710-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.2M Sep  1 16:08 gen-word-2715-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.2M Sep  1 16:08 gen-word-2720-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.3M Sep  1 16:08 gen-word-2725-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.3M Sep  1 16:08 gen-word-2730-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.3M Sep  1 16:08 gen-word-2735-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.3M Sep  1 16:08 gen-word-2740-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.3M Sep  1 16:08 gen-word-2745-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  280K Sep  1 16:08 gen-word-275-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.3M Sep  1 16:08 gen-word-2750-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.3M Sep  1 16:08 gen-word-2755-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.3M Sep  1 16:08 gen-word-2760-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.3M Sep  1 16:08 gen-word-2765-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.3M Sep  1 16:08 gen-word-2770-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.3M Sep  1 16:08 gen-word-2775-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.4M Sep  1 16:08 gen-word-2780-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.3M Sep  1 16:08 gen-word-2785-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.4M Sep  1 16:08 gen-word-2790-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.4M Sep  1 16:08 gen-word-2795-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  283K Sep  1 16:08 gen-word-280-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.4M Sep  1 16:08 gen-word-2800-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.4M Sep  1 16:08 gen-word-2805-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.4M Sep  1 16:08 gen-word-2810-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.4M Sep  1 16:08 gen-word-2815-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.4M Sep  1 16:08 gen-word-2820-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.4M Sep  1 16:08 gen-word-2825-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.4M Sep  1 16:08 gen-word-2830-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.4M Sep  1 16:08 gen-word-2835-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.5M Sep  1 16:08 gen-word-2840-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.5M Sep  1 16:08 gen-word-2845-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  287K Sep  1 16:08 gen-word-285-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.5M Sep  1 16:08 gen-word-2850-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.5M Sep  1 16:08 gen-word-2855-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.5M Sep  1 16:08 gen-word-2860-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.5M Sep  1 16:08 gen-word-2865-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.5M Sep  1 16:08 gen-word-2870-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.5M Sep  1 16:08 gen-word-2875-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.5M Sep  1 16:08 gen-word-2880-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.5M Sep  1 16:08 gen-word-2885-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.6M Sep  1 16:08 gen-word-2890-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.6M Sep  1 16:08 gen-word-2895-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  293K Sep  1 16:08 gen-word-290-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.6M Sep  1 16:08 gen-word-2900-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.6M Sep  1 16:08 gen-word-2905-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.6M Sep  1 16:08 gen-word-2910-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.6M Sep  1 16:08 gen-word-2915-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.6M Sep  1 16:08 gen-word-2920-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.6M Sep  1 16:08 gen-word-2925-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.7M Sep  1 16:08 gen-word-2930-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.6M Sep  1 16:08 gen-word-2935-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.6M Sep  1 16:08 gen-word-2940-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.7M Sep  1 16:08 gen-word-2945-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  298K Sep  1 16:08 gen-word-295-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.7M Sep  1 16:08 gen-word-2950-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.7M Sep  1 16:08 gen-word-2955-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.7M Sep  1 16:08 gen-word-2960-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.7M Sep  1 16:08 gen-word-2965-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.7M Sep  1 16:08 gen-word-2970-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.7M Sep  1 16:08 gen-word-2975-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.7M Sep  1 16:08 gen-word-2980-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.7M Sep  1 16:08 gen-word-2985-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.8M Sep  1 16:08 gen-word-2990-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.8M Sep  1 16:08 gen-word-2995-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   40K Sep  1 16:08 gen-word-30-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  304K Sep  1 16:08 gen-word-300-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.7M Sep  1 16:08 gen-word-3000-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.8M Sep  1 16:08 gen-word-3005-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.8M Sep  1 16:08 gen-word-3010-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.8M Sep  1 16:08 gen-word-3015-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.8M Sep  1 16:08 gen-word-3020-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.8M Sep  1 16:08 gen-word-3025-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.8M Sep  1 16:08 gen-word-3030-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.8M Sep  1 16:08 gen-word-3035-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.8M Sep  1 16:08 gen-word-3040-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.8M Sep  1 16:08 gen-word-3045-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  302K Sep  1 16:08 gen-word-305-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.9M Sep  1 16:08 gen-word-3050-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.9M Sep  1 16:08 gen-word-3055-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.9M Sep  1 16:08 gen-word-3060-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.9M Sep  1 16:08 gen-word-3065-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.9M Sep  1 16:08 gen-word-3070-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.9M Sep  1 16:08 gen-word-3075-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.9M Sep  1 16:08 gen-word-3080-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.9M Sep  1 16:08 gen-word-3085-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.9M Sep  1 16:08 gen-word-3090-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.0M Sep  1 16:08 gen-word-3095-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  310K Sep  1 16:08 gen-word-310-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.0M Sep  1 16:08 gen-word-3100-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  5.9M Sep  1 16:08 gen-word-3105-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.0M Sep  1 16:08 gen-word-3110-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.0M Sep  1 16:08 gen-word-3115-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.0M Sep  1 16:08 gen-word-3120-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.0M Sep  1 16:08 gen-word-3125-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.0M Sep  1 16:08 gen-word-3130-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.0M Sep  1 16:08 gen-word-3135-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.0M Sep  1 16:08 gen-word-3140-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.0M Sep  1 16:08 gen-word-3145-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  314K Sep  1 16:08 gen-word-315-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.1M Sep  1 16:08 gen-word-3150-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.1M Sep  1 16:08 gen-word-3155-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.1M Sep  1 16:08 gen-word-3160-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.1M Sep  1 16:08 gen-word-3165-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.1M Sep  1 16:08 gen-word-3170-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.1M Sep  1 16:08 gen-word-3175-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.1M Sep  1 16:08 gen-word-3180-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.1M Sep  1 16:08 gen-word-3185-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.1M Sep  1 16:08 gen-word-3190-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.1M Sep  1 16:08 gen-word-3195-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  319K Sep  1 16:08 gen-word-320-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.1M Sep  1 16:08 gen-word-3200-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.1M Sep  1 16:08 gen-word-3205-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.2M Sep  1 16:08 gen-word-3210-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.2M Sep  1 16:08 gen-word-3215-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.2M Sep  1 16:08 gen-word-3220-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.2M Sep  1 16:08 gen-word-3225-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.2M Sep  1 16:08 gen-word-3230-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.2M Sep  1 16:08 gen-word-3235-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.2M Sep  1 16:08 gen-word-3240-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.2M Sep  1 16:08 gen-word-3245-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  331K Sep  1 16:08 gen-word-325-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.2M Sep  1 16:08 gen-word-3250-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.3M Sep  1 16:08 gen-word-3255-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.2M Sep  1 16:08 gen-word-3260-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.3M Sep  1 16:08 gen-word-3265-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.3M Sep  1 16:08 gen-word-3270-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.3M Sep  1 16:08 gen-word-3275-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.3M Sep  1 16:08 gen-word-3280-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.3M Sep  1 16:08 gen-word-3285-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.3M Sep  1 16:08 gen-word-3290-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.3M Sep  1 16:08 gen-word-3295-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  332K Sep  1 16:08 gen-word-330-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.3M Sep  1 16:08 gen-word-3300-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.3M Sep  1 16:08 gen-word-3305-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.4M Sep  1 16:08 gen-word-3310-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.4M Sep  1 16:08 gen-word-3315-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.4M Sep  1 16:08 gen-word-3320-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.4M Sep  1 16:08 gen-word-3325-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.4M Sep  1 16:08 gen-word-3330-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.4M Sep  1 16:08 gen-word-3335-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.4M Sep  1 16:08 gen-word-3340-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.4M Sep  1 16:08 gen-word-3345-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  332K Sep  1 16:08 gen-word-335-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.4M Sep  1 16:08 gen-word-3350-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.4M Sep  1 16:08 gen-word-3355-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.4M Sep  1 16:08 gen-word-3360-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.5M Sep  1 16:08 gen-word-3365-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.5M Sep  1 16:08 gen-word-3370-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.5M Sep  1 16:08 gen-word-3375-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.5M Sep  1 16:08 gen-word-3380-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.5M Sep  1 16:08 gen-word-3385-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.5M Sep  1 16:08 gen-word-3390-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.5M Sep  1 16:08 gen-word-3395-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  340K Sep  1 16:08 gen-word-340-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.5M Sep  1 16:08 gen-word-3400-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.6M Sep  1 16:08 gen-word-3405-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.5M Sep  1 16:08 gen-word-3410-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.6M Sep  1 16:08 gen-word-3415-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.6M Sep  1 16:08 gen-word-3420-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.6M Sep  1 16:08 gen-word-3425-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.6M Sep  1 16:08 gen-word-3430-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.6M Sep  1 16:08 gen-word-3435-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.6M Sep  1 16:08 gen-word-3440-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.6M Sep  1 16:08 gen-word-3445-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  349K Sep  1 16:08 gen-word-345-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.6M Sep  1 16:08 gen-word-3450-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.6M Sep  1 16:08 gen-word-3455-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.6M Sep  1 16:08 gen-word-3460-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.7M Sep  1 16:08 gen-word-3465-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.7M Sep  1 16:08 gen-word-3470-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.7M Sep  1 16:08 gen-word-3475-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.7M Sep  1 16:08 gen-word-3480-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.7M Sep  1 16:08 gen-word-3485-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.7M Sep  1 16:08 gen-word-3490-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.7M Sep  1 16:08 gen-word-3495-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   44K Sep  1 16:08 gen-word-35-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  353K Sep  1 16:08 gen-word-350-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.7M Sep  1 16:08 gen-word-3500-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.7M Sep  1 16:08 gen-word-3505-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.7M Sep  1 16:08 gen-word-3510-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.7M Sep  1 16:08 gen-word-3515-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.8M Sep  1 16:08 gen-word-3520-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.8M Sep  1 16:08 gen-word-3525-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.8M Sep  1 16:08 gen-word-3530-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.8M Sep  1 16:08 gen-word-3535-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.8M Sep  1 16:08 gen-word-3540-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.8M Sep  1 16:08 gen-word-3545-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  352K Sep  1 16:08 gen-word-355-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.8M Sep  1 16:08 gen-word-3550-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.8M Sep  1 16:08 gen-word-3555-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.8M Sep  1 16:08 gen-word-3560-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.8M Sep  1 16:08 gen-word-3565-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.9M Sep  1 16:08 gen-word-3570-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.8M Sep  1 16:08 gen-word-3575-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.9M Sep  1 16:08 gen-word-3580-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.9M Sep  1 16:08 gen-word-3585-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.9M Sep  1 16:08 gen-word-3590-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.9M Sep  1 16:08 gen-word-3595-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  360K Sep  1 16:08 gen-word-360-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.9M Sep  1 16:08 gen-word-3600-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.9M Sep  1 16:08 gen-word-3605-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.9M Sep  1 16:08 gen-word-3610-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.9M Sep  1 16:08 gen-word-3615-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  6.9M Sep  1 16:08 gen-word-3620-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.0M Sep  1 16:08 gen-word-3625-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.0M Sep  1 16:08 gen-word-3630-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.0M Sep  1 16:08 gen-word-3635-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.0M Sep  1 16:08 gen-word-3640-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.0M Sep  1 16:08 gen-word-3645-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  363K Sep  1 16:08 gen-word-365-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.0M Sep  1 16:08 gen-word-3650-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.0M Sep  1 16:08 gen-word-3655-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.0M Sep  1 16:08 gen-word-3660-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.0M Sep  1 16:08 gen-word-3665-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.1M Sep  1 16:08 gen-word-3670-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.0M Sep  1 16:08 gen-word-3675-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.1M Sep  1 16:08 gen-word-3680-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.1M Sep  1 16:08 gen-word-3685-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.1M Sep  1 16:08 gen-word-3690-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.1M Sep  1 16:08 gen-word-3695-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  373K Sep  1 16:08 gen-word-370-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.1M Sep  1 16:08 gen-word-3700-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.1M Sep  1 16:08 gen-word-3705-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.1M Sep  1 16:08 gen-word-3710-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.1M Sep  1 16:08 gen-word-3715-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.1M Sep  1 16:08 gen-word-3720-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.1M Sep  1 16:08 gen-word-3725-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.1M Sep  1 16:08 gen-word-3730-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.2M Sep  1 16:08 gen-word-3735-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.2M Sep  1 16:08 gen-word-3740-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.2M Sep  1 16:08 gen-word-3745-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  379K Sep  1 16:08 gen-word-375-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.2M Sep  1 16:08 gen-word-3750-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.2M Sep  1 16:08 gen-word-3755-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.2M Sep  1 16:08 gen-word-3760-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.2M Sep  1 16:08 gen-word-3765-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.2M Sep  1 16:08 gen-word-3770-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.2M Sep  1 16:08 gen-word-3775-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.2M Sep  1 16:08 gen-word-3780-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.2M Sep  1 16:08 gen-word-3785-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.3M Sep  1 16:08 gen-word-3790-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.3M Sep  1 16:08 gen-word-3795-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  384K Sep  1 16:08 gen-word-380-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.3M Sep  1 16:08 gen-word-3800-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.3M Sep  1 16:08 gen-word-3805-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.3M Sep  1 16:08 gen-word-3810-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.3M Sep  1 16:08 gen-word-3815-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.3M Sep  1 16:08 gen-word-3820-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.3M Sep  1 16:08 gen-word-3825-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.4M Sep  1 16:08 gen-word-3830-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.4M Sep  1 16:08 gen-word-3835-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.4M Sep  1 16:08 gen-word-3840-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.4M Sep  1 16:08 gen-word-3845-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  387K Sep  1 16:08 gen-word-385-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.4M Sep  1 16:08 gen-word-3850-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.4M Sep  1 16:08 gen-word-3855-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.4M Sep  1 16:08 gen-word-3860-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.4M Sep  1 16:08 gen-word-3865-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.4M Sep  1 16:08 gen-word-3870-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.4M Sep  1 16:08 gen-word-3875-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.5M Sep  1 16:08 gen-word-3880-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.5M Sep  1 16:08 gen-word-3885-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.4M Sep  1 16:08 gen-word-3890-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.5M Sep  1 16:08 gen-word-3895-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  393K Sep  1 16:08 gen-word-390-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.5M Sep  1 16:08 gen-word-3900-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.5M Sep  1 16:08 gen-word-3905-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.5M Sep  1 16:08 gen-word-3910-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.5M Sep  1 16:08 gen-word-3915-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.5M Sep  1 16:08 gen-word-3920-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.5M Sep  1 16:08 gen-word-3925-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.5M Sep  1 16:08 gen-word-3930-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.5M Sep  1 16:08 gen-word-3935-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.5M Sep  1 16:08 gen-word-3940-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.6M Sep  1 16:08 gen-word-3945-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  396K Sep  1 16:08 gen-word-395-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.6M Sep  1 16:08 gen-word-3950-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.6M Sep  1 16:08 gen-word-3955-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.6M Sep  1 16:08 gen-word-3960-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.6M Sep  1 16:08 gen-word-3965-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.6M Sep  1 16:08 gen-word-3970-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.6M Sep  1 16:08 gen-word-3975-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.7M Sep  1 16:08 gen-word-3980-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.6M Sep  1 16:08 gen-word-3985-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.6M Sep  1 16:08 gen-word-3990-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.7M Sep  1 16:08 gen-word-3995-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   49K Sep  1 16:08 gen-word-40-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  404K Sep  1 16:08 gen-word-400-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  7.6M Sep  1 16:08 gen-word-4000-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  405K Sep  1 16:08 gen-word-405-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  407K Sep  1 16:08 gen-word-410-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  418K Sep  1 16:08 gen-word-415-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  415K Sep  1 16:08 gen-word-420-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  423K Sep  1 16:08 gen-word-425-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  432K Sep  1 16:08 gen-word-430-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  432K Sep  1 16:08 gen-word-435-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  437K Sep  1 16:08 gen-word-440-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  443K Sep  1 16:08 gen-word-445-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   52K Sep  1 16:08 gen-word-45-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  444K Sep  1 16:08 gen-word-450-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  451K Sep  1 16:08 gen-word-455-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  464K Sep  1 16:08 gen-word-460-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  464K Sep  1 16:08 gen-word-465-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  465K Sep  1 16:08 gen-word-470-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  473K Sep  1 16:08 gen-word-475-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  472K Sep  1 16:08 gen-word-480-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  482K Sep  1 16:08 gen-word-485-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  493K Sep  1 16:08 gen-word-490-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  487K Sep  1 16:08 gen-word-495-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   15K Sep  1 16:08 gen-word-5-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   59K Sep  1 16:08 gen-word-50-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  498K Sep  1 16:08 gen-word-500-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root 1010K Sep  1 16:08 gen-word-505-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root 1016K Sep  1 16:08 gen-word-510-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root 1023K Sep  1 16:08 gen-word-515-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.1M Sep  1 16:08 gen-word-520-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.1M Sep  1 16:08 gen-word-525-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.1M Sep  1 16:08 gen-word-530-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.1M Sep  1 16:08 gen-word-535-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.1M Sep  1 16:08 gen-word-540-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.1M Sep  1 16:08 gen-word-545-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   64K Sep  1 16:08 gen-word-55-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.1M Sep  1 16:08 gen-word-550-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.1M Sep  1 16:08 gen-word-555-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.1M Sep  1 16:08 gen-word-560-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.1M Sep  1 16:08 gen-word-565-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.1M Sep  1 16:08 gen-word-570-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.2M Sep  1 16:08 gen-word-575-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.2M Sep  1 16:08 gen-word-580-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.2M Sep  1 16:08 gen-word-585-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.2M Sep  1 16:08 gen-word-590-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.2M Sep  1 16:08 gen-word-595-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   68K Sep  1 16:08 gen-word-60-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.2M Sep  1 16:08 gen-word-600-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.2M Sep  1 16:08 gen-word-605-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.2M Sep  1 16:08 gen-word-610-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.2M Sep  1 16:08 gen-word-615-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.2M Sep  1 16:08 gen-word-620-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.3M Sep  1 16:08 gen-word-625-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.3M Sep  1 16:08 gen-word-630-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.3M Sep  1 16:08 gen-word-635-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.3M Sep  1 16:08 gen-word-640-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.3M Sep  1 16:08 gen-word-645-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   73K Sep  1 16:08 gen-word-65-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.3M Sep  1 16:08 gen-word-650-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.3M Sep  1 16:08 gen-word-655-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.3M Sep  1 16:08 gen-word-660-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.3M Sep  1 16:08 gen-word-665-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.3M Sep  1 16:08 gen-word-670-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.3M Sep  1 16:08 gen-word-675-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.4M Sep  1 16:08 gen-word-680-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.4M Sep  1 16:08 gen-word-685-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.4M Sep  1 16:08 gen-word-690-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.4M Sep  1 16:08 gen-word-695-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   80K Sep  1 16:08 gen-word-70-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.4M Sep  1 16:08 gen-word-700-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.4M Sep  1 16:08 gen-word-705-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.4M Sep  1 16:08 gen-word-710-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.4M Sep  1 16:08 gen-word-715-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.5M Sep  1 16:08 gen-word-720-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.5M Sep  1 16:08 gen-word-725-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.5M Sep  1 16:08 gen-word-730-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.5M Sep  1 16:08 gen-word-735-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.5M Sep  1 16:08 gen-word-740-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.5M Sep  1 16:08 gen-word-745-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   83K Sep  1 16:08 gen-word-75-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.5M Sep  1 16:08 gen-word-750-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.5M Sep  1 16:08 gen-word-755-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.5M Sep  1 16:08 gen-word-760-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.5M Sep  1 16:08 gen-word-765-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.5M Sep  1 16:08 gen-word-770-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.5M Sep  1 16:08 gen-word-775-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.6M Sep  1 16:08 gen-word-780-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.6M Sep  1 16:08 gen-word-785-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.6M Sep  1 16:08 gen-word-790-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.6M Sep  1 16:08 gen-word-795-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   90K Sep  1 16:08 gen-word-80-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.6M Sep  1 16:08 gen-word-800-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.6M Sep  1 16:08 gen-word-805-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.6M Sep  1 16:08 gen-word-810-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.6M Sep  1 16:08 gen-word-815-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.6M Sep  1 16:08 gen-word-820-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.6M Sep  1 16:08 gen-word-825-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.6M Sep  1 16:08 gen-word-830-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.7M Sep  1 16:08 gen-word-835-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.7M Sep  1 16:08 gen-word-840-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.7M Sep  1 16:08 gen-word-845-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   91K Sep  1 16:08 gen-word-85-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.7M Sep  1 16:08 gen-word-850-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.7M Sep  1 16:08 gen-word-855-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.7M Sep  1 16:08 gen-word-860-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.7M Sep  1 16:08 gen-word-865-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.7M Sep  1 16:08 gen-word-870-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.7M Sep  1 16:08 gen-word-875-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.7M Sep  1 16:08 gen-word-880-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.8M Sep  1 16:08 gen-word-885-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.8M Sep  1 16:08 gen-word-890-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.8M Sep  1 16:08 gen-word-895-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   95K Sep  1 16:08 gen-word-90-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.8M Sep  1 16:08 gen-word-900-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.8M Sep  1 16:08 gen-word-905-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.8M Sep  1 16:08 gen-word-910-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.8M Sep  1 16:08 gen-word-915-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.8M Sep  1 16:08 gen-word-920-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.8M Sep  1 16:08 gen-word-925-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.8M Sep  1 16:08 gen-word-930-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.8M Sep  1 16:08 gen-word-935-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.8M Sep  1 16:08 gen-word-940-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.9M Sep  1 16:08 gen-word-945-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  101K Sep  1 16:08 gen-word-95-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.9M Sep  1 16:08 gen-word-950-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.9M Sep  1 16:08 gen-word-955-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.9M Sep  1 16:08 gen-word-960-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.9M Sep  1 16:08 gen-word-965-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.9M Sep  1 16:08 gen-word-970-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.9M Sep  1 16:08 gen-word-975-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.9M Sep  1 16:08 gen-word-980-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.9M Sep  1 16:08 gen-word-985-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  1.9M Sep  1 16:08 gen-word-990-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  2.0M Sep  1 16:08 gen-word-995-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   51K Sep  1 16:08 shuffle-word-10-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-100-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1000-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-1005-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1010-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-1015-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-1020-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-1025-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1030-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1035-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1040-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-1045-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-105-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1050-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-1055-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-1060-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1065-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1070-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1075-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1080-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1085-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1090-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1095-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-110-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1100-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-1105-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1110-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1115-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1120-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-1125-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1130-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1135-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1140-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-1145-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-115-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1150-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1155-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1160-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-1165-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1170-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1175-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1180-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1185-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1190-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1195-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-120-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1200-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1205-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-1210-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1215-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1220-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1225-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1230-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1235-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1240-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1245-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-125-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1250-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1255-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1260-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1265-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1270-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1275-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1280-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1285-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1290-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1295-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-130-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1300-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1305-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1310-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1315-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1320-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1325-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1330-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1335-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1340-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1345-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-135-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1350-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1355-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1360-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1365-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1370-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1375-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-1380-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1385-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-1390-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1395-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-140-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1400-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1405-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1410-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1415-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1420-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1425-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  517K Sep  1 16:08 shuffle-word-1430-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1435-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1440-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1445-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-145-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1450-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1455-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1460-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1465-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-1470-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1475-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1480-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1485-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1490-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-1495-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   41K Sep  1 16:08 shuffle-word-15-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-150-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-1500-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1505-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1510-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1515-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1520-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1525-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1530-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-1535-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1540-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1545-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-155-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1550-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1555-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1560-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1565-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1570-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1575-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1580-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-1585-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1590-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-1595-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-160-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1600-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1605-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1610-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1615-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1620-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1625-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1630-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1635-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1640-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1645-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-165-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1650-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1655-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1660-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1665-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1670-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1675-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-1680-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-1685-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1690-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1695-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-170-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1700-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-1705-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1710-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1715-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-1720-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-1725-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1730-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1735-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1740-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1745-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-175-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1750-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1755-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1760-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1765-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1770-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1775-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1780-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-1785-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1790-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1795-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-180-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1800-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1805-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1810-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1815-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1820-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1825-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1830-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1835-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1840-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1845-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-185-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-1850-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1855-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1860-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-1865-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1870-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1875-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1880-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-1885-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-1890-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1895-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-190-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1900-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1905-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1910-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1915-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  517K Sep  1 16:08 shuffle-word-1920-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1925-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1930-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1935-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1940-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1945-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   26K Sep  1 16:08 shuffle-word-195-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1950-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1955-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1960-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-1965-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-1970-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1975-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-1980-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1985-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-1990-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-1995-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   43K Sep  1 16:08 shuffle-word-20-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-200-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-2000-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-2005-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-2010-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-2015-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2020-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  517K Sep  1 16:08 shuffle-word-2025-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-2030-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2035-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-2040-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2045-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-205-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-2050-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2055-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2060-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2065-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2070-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-2075-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-2080-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-2085-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2090-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2095-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-210-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2100-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-2105-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-2110-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2115-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2120-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2125-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2130-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-2135-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-2140-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2145-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-215-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-2150-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-2155-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-2160-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2165-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-2170-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2175-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-2180-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2185-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-2190-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2195-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-220-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2200-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-2205-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-2210-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-2215-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2220-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-2225-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2230-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2235-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2240-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-2245-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-225-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2250-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-2255-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-2260-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2265-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2270-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-2275-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2280-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2285-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  517K Sep  1 16:08 shuffle-word-2290-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2295-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-230-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2300-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2305-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  517K Sep  1 16:08 shuffle-word-2310-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2315-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2320-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2325-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-2330-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-2335-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-2340-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-2345-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-235-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-2350-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-2355-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2360-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-2365-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-2370-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2375-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  517K Sep  1 16:08 shuffle-word-2380-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2385-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-2390-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-2395-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-240-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2400-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2405-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-2410-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-2415-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-2420-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2425-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  517K Sep  1 16:08 shuffle-word-2430-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2435-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2440-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-2445-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-245-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-2450-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-2455-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-2460-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2465-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2470-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2475-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2480-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  517K Sep  1 16:08 shuffle-word-2485-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-2490-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-2495-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   36K Sep  1 16:08 shuffle-word-25-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-250-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-2500-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  515K Sep  1 16:08 shuffle-word-2505-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  514K Sep  1 16:08 shuffle-word-2510-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  516K Sep  1 16:08 shuffle-word-2515-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  514K Sep  1 16:08 shuffle-word-2520-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  516K Sep  1 16:08 shuffle-word-2525-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  517K Sep  1 16:08 shuffle-word-2530-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  516K Sep  1 16:08 shuffle-word-2535-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-2540-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  516K Sep  1 16:08 shuffle-word-2545-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   26K Sep  1 16:08 shuffle-word-255-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  517K Sep  1 16:08 shuffle-word-2550-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  514K Sep  1 16:08 shuffle-word-2555-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  515K Sep  1 16:08 shuffle-word-2560-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  518K Sep  1 16:08 shuffle-word-2565-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  513K Sep  1 16:08 shuffle-word-2570-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  516K Sep  1 16:08 shuffle-word-2575-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  514K Sep  1 16:08 shuffle-word-2580-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  514K Sep  1 16:08 shuffle-word-2585-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  516K Sep  1 16:08 shuffle-word-2590-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  514K Sep  1 16:08 shuffle-word-2595-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-260-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  517K Sep  1 16:08 shuffle-word-2600-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  511K Sep  1 16:08 shuffle-word-2605-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  512K Sep  1 16:08 shuffle-word-2610-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  510K Sep  1 16:08 shuffle-word-2615-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  511K Sep  1 16:08 shuffle-word-2620-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  510K Sep  1 16:08 shuffle-word-2625-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  511K Sep  1 16:08 shuffle-word-2630-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  510K Sep  1 16:08 shuffle-word-2635-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  512K Sep  1 16:08 shuffle-word-2640-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  511K Sep  1 16:08 shuffle-word-2645-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-265-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  511K Sep  1 16:08 shuffle-word-2650-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  512K Sep  1 16:08 shuffle-word-2655-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2660-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2665-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  512K Sep  1 16:08 shuffle-word-2670-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2675-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2680-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  513K Sep  1 16:08 shuffle-word-2685-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  510K Sep  1 16:08 shuffle-word-2690-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  512K Sep  1 16:08 shuffle-word-2695-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-270-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  510K Sep  1 16:08 shuffle-word-2700-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  510K Sep  1 16:08 shuffle-word-2705-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2710-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  510K Sep  1 16:08 shuffle-word-2715-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2720-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-2725-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2730-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  510K Sep  1 16:08 shuffle-word-2735-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2740-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2745-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-275-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  510K Sep  1 16:08 shuffle-word-2750-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2755-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  511K Sep  1 16:08 shuffle-word-2760-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2765-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  511K Sep  1 16:08 shuffle-word-2770-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  510K Sep  1 16:08 shuffle-word-2775-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  510K Sep  1 16:08 shuffle-word-2780-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2785-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2790-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  510K Sep  1 16:08 shuffle-word-2795-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-280-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2800-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2805-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2810-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2815-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2820-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-2825-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2830-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2835-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-2840-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-2845-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-285-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2850-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-2855-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2860-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-2865-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2870-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2875-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-2880-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2885-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2890-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2895-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-290-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-2900-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-2905-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2910-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2915-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2920-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2925-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2930-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2935-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2940-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-2945-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-295-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2950-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2955-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2960-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-2965-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2970-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2975-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2980-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2985-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2990-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-2995-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   34K Sep  1 16:08 shuffle-word-30-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-300-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3000-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3005-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3010-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3015-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3020-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3025-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3030-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3035-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3040-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3045-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   26K Sep  1 16:08 shuffle-word-305-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3050-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3055-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3060-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3065-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3070-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3075-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3080-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3085-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3090-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3095-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   26K Sep  1 16:08 shuffle-word-310-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3100-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3105-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3110-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3115-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3120-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3125-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3130-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3135-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3140-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3145-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-315-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3150-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3155-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3160-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3165-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3170-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3175-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3180-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3185-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3190-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3195-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   26K Sep  1 16:08 shuffle-word-320-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3200-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3205-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3210-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3215-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3220-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3225-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3230-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3235-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3240-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3245-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-325-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3250-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3255-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3260-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3265-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3270-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3275-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3280-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3285-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3290-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3295-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-330-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3300-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3305-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3310-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3315-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3320-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3325-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3330-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3335-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3340-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3345-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-335-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3350-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3355-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3360-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3365-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3370-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3375-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3380-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3385-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3390-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3395-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-340-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3400-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3405-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3410-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3415-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3420-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3425-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3430-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3435-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3440-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3445-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-345-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3450-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3455-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3460-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3465-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3470-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3475-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3480-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3485-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3490-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3495-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   33K Sep  1 16:08 shuffle-word-35-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   26K Sep  1 16:08 shuffle-word-350-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3500-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3505-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3510-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3515-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3520-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3525-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3530-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3535-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3540-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3545-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-355-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3550-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3555-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3560-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3565-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3570-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3575-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3580-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3585-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3590-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3595-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-360-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3600-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3605-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3610-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3615-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3620-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3625-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3630-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3635-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3640-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3645-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-365-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3650-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3655-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3660-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3665-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3670-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3675-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3680-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3685-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3690-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3695-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   26K Sep  1 16:08 shuffle-word-370-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3700-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3705-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3710-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3715-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3720-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3725-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3730-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3735-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3740-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3745-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-375-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3750-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3755-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3760-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3765-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3770-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3775-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3780-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3785-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3790-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3795-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-380-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3800-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3805-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3810-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3815-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3820-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3825-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3830-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3835-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3840-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3845-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   26K Sep  1 16:08 shuffle-word-385-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3850-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3855-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3860-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3865-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3870-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3875-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3880-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3885-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3890-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3895-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-390-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3900-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3905-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3910-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3915-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3920-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3925-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3930-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3935-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3940-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3945-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-395-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3950-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3955-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3960-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3965-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3970-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3975-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3980-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  508K Sep  1 16:08 shuffle-word-3985-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3990-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-3995-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   32K Sep  1 16:08 shuffle-word-40-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   26K Sep  1 16:08 shuffle-word-400-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  509K Sep  1 16:08 shuffle-word-4000-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-405-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-410-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-415-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-420-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   26K Sep  1 16:08 shuffle-word-425-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-430-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   26K Sep  1 16:08 shuffle-word-435-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-440-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-445-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   32K Sep  1 16:08 shuffle-word-45-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-450-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-455-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   26K Sep  1 16:08 shuffle-word-460-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-465-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   26K Sep  1 16:08 shuffle-word-470-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-475-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-480-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-485-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   26K Sep  1 16:08 shuffle-word-490-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-495-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   87K Sep  1 16:08 shuffle-word-5-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   32K Sep  1 16:08 shuffle-word-50-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   27K Sep  1 16:08 shuffle-word-500-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-505-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  526K Sep  1 16:08 shuffle-word-510-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  527K Sep  1 16:08 shuffle-word-515-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  527K Sep  1 16:08 shuffle-word-520-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-525-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  529K Sep  1 16:08 shuffle-word-530-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  526K Sep  1 16:08 shuffle-word-535-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-540-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-545-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   33K Sep  1 16:08 shuffle-word-55-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  527K Sep  1 16:08 shuffle-word-550-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  527K Sep  1 16:08 shuffle-word-555-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  528K Sep  1 16:08 shuffle-word-560-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  526K Sep  1 16:08 shuffle-word-565-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  527K Sep  1 16:08 shuffle-word-570-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  528K Sep  1 16:08 shuffle-word-575-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  526K Sep  1 16:08 shuffle-word-580-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  528K Sep  1 16:08 shuffle-word-585-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-590-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  526K Sep  1 16:08 shuffle-word-595-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   31K Sep  1 16:08 shuffle-word-60-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  527K Sep  1 16:08 shuffle-word-600-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  528K Sep  1 16:08 shuffle-word-605-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  526K Sep  1 16:08 shuffle-word-610-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-615-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-620-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-625-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-630-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-635-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-640-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-645-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   31K Sep  1 16:08 shuffle-word-65-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-650-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-655-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-660-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-665-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  526K Sep  1 16:08 shuffle-word-670-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-675-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  527K Sep  1 16:08 shuffle-word-680-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-685-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-690-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-695-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   29K Sep  1 16:08 shuffle-word-70-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-700-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  526K Sep  1 16:08 shuffle-word-705-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  526K Sep  1 16:08 shuffle-word-710-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  527K Sep  1 16:08 shuffle-word-715-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  526K Sep  1 16:08 shuffle-word-720-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  527K Sep  1 16:08 shuffle-word-725-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  526K Sep  1 16:08 shuffle-word-730-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-735-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-740-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-745-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-75-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-750-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-755-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-760-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-765-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  527K Sep  1 16:08 shuffle-word-770-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-775-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-780-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-785-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-790-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-795-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-80-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  526K Sep  1 16:08 shuffle-word-800-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  519K Sep  1 16:08 shuffle-word-805-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-810-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-815-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-820-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  526K Sep  1 16:08 shuffle-word-825-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-830-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-835-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-840-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-845-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   30K Sep  1 16:08 shuffle-word-85-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-850-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-855-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-860-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-865-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-870-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  525K Sep  1 16:08 shuffle-word-875-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-880-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-885-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-890-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  526K Sep  1 16:08 shuffle-word-895-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   28K Sep  1 16:08 shuffle-word-90-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-900-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-905-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-910-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-915-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-920-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-925-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-930-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-935-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-940-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-945-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   29K Sep  1 16:08 shuffle-word-95-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  526K Sep  1 16:08 shuffle-word-950-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-955-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-960-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-965-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-970-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  522K Sep  1 16:08 shuffle-word-975-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  524K Sep  1 16:08 shuffle-word-980-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  521K Sep  1 16:08 shuffle-word-985-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  520K Sep  1 16:08 shuffle-word-990-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root  523K Sep  1 16:08 shuffle-word-995-count.jsonl\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "-rw-r--r--  1 root root   13K Sep  1 16:08 word-2-count.jsonl\n"
-     ]
-    }
-   ],
-   "source": [
-    "%%script bash\n",
-    "\n",
-    "########################################\n",
-    "# Generate the required jsonl dataset\n",
-    "########################################\n",
-    "\n",
-    "# Reset the dataset dir\n",
-    "mkdir -p ../dataset\n",
-    "rm -rf ../dataset/*.jsonl\n",
-    "\n",
-    "# Generate the various datasets\n",
-    "echo \"## Generating word reptition dataset ##\"\n",
-    "\n",
-    "#\n",
-    "# We reduce the training set for < 50 words - and shift the focus upwards\n",
-    "# (aka 50-100 token * 2 : ~100 - 250 token ctx len)\n",
-    "#\n",
-    "python ../memory_script/gen_limited_prompt_completion_jsonl.py ../dataset/word-2-count.jsonl 2 100 &\n",
-    "for i in {5..500..5} \n",
-    "do\n",
-    "    python ../memory_script/gen_limited_prompt_completion_jsonl.py ../dataset/gen-word-$i-count.jsonl $i 100 & \n",
-    "    python ../memory_script/shuffle_limited_prompt_completion_jsonl.py ../dataset/shuffle-word-$i-count.jsonl $i 1 & \n",
-    "done\n",
-    "\n",
-    "#\n",
-    "# Ramping up the 50+ - 2100 words dataset\n",
-    "# \n",
-    "for i in {505..4000..5} \n",
-    "do\n",
-    "    python ../memory_script/gen_limited_prompt_completion_jsonl.py ../dataset/gen-word-$i-count.jsonl $i 200 & \n",
-    "    python ../memory_script/shuffle_limited_prompt_completion_jsonl.py ../dataset/shuffle-word-$i-count.jsonl $i 20 & \n",
-    "done\n",
-    "\n",
-    "wait\n",
-    "echo \"## Done ##\"\n",
-    "\n",
-    "ls -alh ../dataset/"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 6,
-   "id": "efad3246",
-   "metadata": {
-    "execution": {
-     "iopub.execute_input": "2023-09-01T16:08:33.676999Z",
-     "iopub.status.busy": "2023-09-01T16:08:33.676788Z",
-     "iopub.status.idle": "2023-09-02T05:34:46.548479Z",
-     "shell.execute_reply": "2023-09-02T05:34:46.547472Z"
-    },
-    "papermill": {
-     "duration": 48373.036897,
-     "end_time": "2023-09-02T05:34:46.550746",
-     "exception": false,
-     "start_time": "2023-09-01T16:08:33.513849",
-     "status": "completed"
-    },
-    "tags": []
-   },
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Setting ds_accelerator to cuda (auto detect)\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.11/dist-packages/lightning/pytorch/cli.py:484: UserWarning: LightningCLI's args parameter is intended to run from within Python like if it were from the command line. To prevent mistakes it is not recommended to provide both args and command line arguments, got: sys.argv[1:]=['fit', '-c', '/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/rwkv-x-exp/v5-memory/config-mem-template.yaml', '--trainer.logger.init_args.name=v5-L96-D1024-E0.1 - Mem-Tune ctx-4k (train-ctx=4k, deepspeed_stage_1)', '--trainer.strategy=deepspeed_stage_1', '--trainer.devices=auto', '--trainer.callbacks.init_args.dirpath=../checkpoint/v5-L96-D1024-E0_1-mem-ctx-4k/', '--model.lr_init=3e-4', '--model.lr_final=1e-4', '--data.max_token_size=4096', '--model.ctx_len=4096', '--model.bptt_learning_range=1', '--model.load_model=../model/v5-L96-D1024-E0_1-mem-ctx-2k.pth'], args=['fit', '-c', '/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/rwkv-x-exp/v5-memory/config-mem-template.yaml', '--trainer.logger.init_args.name=v5-L96-D1024-E0.1 - Mem-Tune ctx-4k (train-ctx=4k, deepspeed_stage_1)', '--trainer.strategy=deepspeed_stage_1', '--trainer.devices=auto', '--trainer.callbacks.init_args.dirpath=../checkpoint/v5-L96-D1024-E0_1-mem-ctx-4k/', '--model.lr_init=3e-4', '--model.lr_final=1e-4', '--data.max_token_size=4096', '--model.ctx_len=4096', '--model.bptt_learning_range=1', '--model.load_model=../model/v5-L96-D1024-E0_1-mem-ctx-2k.pth'].\r\n",
-      "  rank_zero_warn(\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.11/dist-packages/lightning/fabric/utilities/seed.py:39: UserWarning: No seed found, seed set to 1010560597\r\n",
-      "  rank_zero_warn(f\"No seed found, seed set to {seed}\")\r\n",
-      "Global seed set to 1010560597\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\u001b[34m\u001b[1mwandb\u001b[0m: Currently logged in as: \u001b[33mpicocreator\u001b[0m (\u001b[33mrwkv-x-dev\u001b[0m). Use \u001b[1m`wandb login --relogin`\u001b[0m to force relogin\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\u001b[34m\u001b[1mwandb\u001b[0m: Tracking run with wandb version 0.15.9\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m: Run data is saved locally in \u001b[35m\u001b[1m./wandb/run-20230901_160839-bxjrufwn\u001b[0m\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m: Run \u001b[1m`wandb offline`\u001b[0m to turn off syncing.\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m: Syncing run \u001b[33mv5-L96-D1024-E0.1 - Mem-Tune ctx-4k (train-ctx=4k, deepspeed_stage_1)\u001b[0m\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m: ⭐️ View project at \u001b[34m\u001b[4mhttps://wandb.ai/rwkv-x-dev/RWKV-X-Experiments\u001b[0m\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m: 🚀 View run at \u001b[34m\u001b[4mhttps://wandb.ai/rwkv-x-dev/RWKV-X-Experiments/runs/bxjrufwn\u001b[0m\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.11/dist-packages/lightning/fabric/connector.py:562: UserWarning: bf16 is supported for historical reasons but its usage is discouraged. Please set your precision to bf16-mixed instead!\r\n",
-      "  rank_zero_warn(\r\n",
-      "GPU available: True (cuda), used: True\r\n",
-      "TPU available: False, using: 0 TPU cores\r\n",
-      "IPU available: False, using: 0 IPUs\r\n",
-      "HPU available: False, using: 0 HPUs\r\n",
-      "\r\n",
-      "\r\n",
-      "[RWKV.Trainer] Applying 'target_batch_size' with the following:\r\n",
-      "   - target_batch_size:       256\r\n",
-      "   - num_nodes:               1\r\n",
-      "   - num_devices:             8\r\n",
-      "   - accumulate_grad_batches: 32\r\n",
-      "   - effective_batch_size:    256\r\n",
-      "\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Resolving data files:   0%|                            | 0/1601 [00:00<?, ?it/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Resolving data files:  92%|████████████▊ | 1465/1601 [00:00<00:00, 14444.89it/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Resolving data files: 100%|██████████████| 1601/1601 [00:00<00:00, 13135.94it/s]\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Downloading and preparing dataset json/default to /actions-runner/.cache/huggingface/datasets/json/default-2a76190a51775e7e/0.0.0/8bb11242116d547c741b2e8a1f18598ffdd40a1d4f2a2872c7a28b697434bc96...\r\n",
-      "\r",
-      "Downloading data files:   0%|                             | 0/1 [00:00<?, ?it/s]\r",
-      "Downloading data files: 100%|█████████████████████| 1/1 [00:00<00:00, 52.53it/s]\r\n",
-      "\r",
-      "Extracting data files:   0%|                              | 0/1 [00:00<?, ?it/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Extracting data files: 100%|██████████████████████| 1/1 [00:00<00:00,  2.12it/s]\r",
-      "Extracting data files: 100%|██████████████████████| 1/1 [00:00<00:00,  2.12it/s]\r\n",
-      "\r",
-      "Generating train split: 0 examples [00:00, ? examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Setting ds_accelerator to cuda (auto detect)\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Setting ds_accelerator to cuda (auto detect)\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Setting ds_accelerator to cuda (auto detect)\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Setting ds_accelerator to cuda (auto detect)\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Setting ds_accelerator to cuda (auto detect)\r\n",
-      "Setting ds_accelerator to cuda (auto detect)\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Setting ds_accelerator to cuda (auto detect)\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n",
-      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n",
-      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "[rank: 4] Global seed set to 1010560597\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "[rank: 7] Global seed set to 1010560597\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "[rank: 6] Global seed set to 1010560597\r\n",
-      "[rank: 2] Global seed set to 1010560597\r\n",
-      "[rank: 1] Global seed set to 1010560597\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "[rank: 5] Global seed set to 1010560597\r\n",
-      "[rank: 3] Global seed set to 1010560597\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 1200 examples [00:12, 93.88 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 6200 examples [00:12, 645.32 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 12500 examples [00:13, 1607.13 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 18200 examples [00:13, 2782.66 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 24600 examples [00:13, 4592.12 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 29900 examples [00:13, 6491.64 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 35700 examples [00:13, 9203.96 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 41000 examples [00:13, 12255.92 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 48000 examples [00:13, 16840.58 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 54500 examples [00:13, 21860.77 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 59900 examples [00:13, 25647.40 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 65700 examples [00:14, 30310.06 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 72100 examples [00:14, 34241.97 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 77400 examples [00:14, 37240.96 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 82900 examples [00:14, 38684.37 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 88200 examples [00:14, 38279.40 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 95600 examples [00:14, 46205.54 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 100900 examples [00:14, 45125.23 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 106200 examples [00:14, 44485.02 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 111500 examples [00:15, 24455.49 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 117800 examples [00:15, 30378.27 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 125000 examples [00:15, 37843.04 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 135800 examples [00:15, 49755.12 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 144400 examples [00:15, 52948.17 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 151085 examples [00:16, 52981.87 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 157108 examples [00:16, 30967.80 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 161893 examples [00:16, 23152.60 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 165618 examples [00:17, 17677.60 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 168442 examples [00:17, 11425.51 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 170519 examples [00:18, 7368.94 examples/s] "
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 172048 examples [00:18, 7814.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 173534 examples [00:19, 7396.82 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 174781 examples [00:19, 6384.42 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 175742 examples [00:19, 5908.62 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 176651 examples [00:19, 5506.82 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 177524 examples [00:20, 4911.89 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 178336 examples [00:20, 4496.94 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 178886 examples [00:20, 4088.71 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Generating train split: 179674 examples [00:20, 4370.03 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "                                                                   \r"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Dataset json downloaded and prepared to /actions-runner/.cache/huggingface/datasets/json/default-2a76190a51775e7e/0.0.0/8bb11242116d547c741b2e8a1f18598ffdd40a1d4f2a2872c7a28b697434bc96. Subsequent calls will reuse this data.\r\n",
-      "\r",
-      "  0%|                                                     | 0/1 [00:00<?, ?it/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "100%|█████████████████████████████████████████████| 1/1 [00:00<00:00,  5.60it/s]\r",
-      "100%|█████████████████████████████████████████████| 1/1 [00:00<00:00,  5.40it/s]\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   0%|                      | 0/179674 [00:00<?, ? examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   0%|          | 1/179674 [00:02<142:04:50,  2.85s/ examples]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   0%|           | 7/179674 [00:03<16:06:02,  3.10 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   0%|            | 142/179674 [00:03<34:54, 85.70 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   0%|           | 198/179674 [00:03<24:42, 121.10 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   0%|           | 248/179674 [00:03<18:48, 159.05 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   0%|           | 298/179674 [00:03<21:03, 141.92 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   0%|           | 424/179674 [00:03<11:27, 260.77 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   0%|           | 483/179674 [00:04<11:14, 265.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   0%|           | 534/179674 [00:04<13:18, 224.34 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   0%|           | 581/179674 [00:04<12:35, 236.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   0%|           | 619/179674 [00:04<13:30, 220.98 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   0%|           | 700/179674 [00:04<09:51, 302.67 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   0%|           | 755/179674 [00:05<09:41, 307.87 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   0%|           | 881/179674 [00:05<06:43, 442.56 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|           | 948/179674 [00:05<06:15, 476.35 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|          | 1009/179674 [00:05<06:15, 475.59 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|          | 1066/179674 [00:05<06:06, 486.73 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|          | 1132/179674 [00:05<06:04, 489.48 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|          | 1185/179674 [00:06<09:37, 308.93 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|          | 1354/179674 [00:06<05:56, 500.80 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|          | 1420/179674 [00:06<05:40, 522.81 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|          | 1510/179674 [00:06<05:04, 584.90 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|          | 1580/179674 [00:06<05:24, 548.67 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|          | 1642/179674 [00:06<05:34, 532.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|          | 1706/179674 [00:06<05:24, 549.27 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|          | 1765/179674 [00:06<05:22, 550.97 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|           | 1823/179674 [00:09<35:38, 83.15 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|          | 1916/179674 [00:09<23:26, 126.40 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|          | 2056/179674 [00:09<14:33, 203.22 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|          | 2120/179674 [00:09<12:23, 238.71 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|          | 2181/179674 [00:09<12:11, 242.77 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|▏         | 2259/179674 [00:10<09:43, 303.98 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|▏         | 2318/179674 [00:10<10:10, 290.49 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|▏         | 2463/179674 [00:10<06:26, 458.15 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|▏         | 2539/179674 [00:10<07:11, 410.09 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|▏         | 2601/179674 [00:10<06:48, 433.00 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   1%|▏         | 2662/179674 [00:10<07:03, 417.94 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   2%|▏         | 2868/179674 [00:11<04:00, 734.99 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   2%|▏         | 2968/179674 [00:11<05:03, 582.72 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   2%|▏         | 3117/179674 [00:11<03:59, 738.09 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   2%|▏         | 3216/179674 [00:11<03:56, 746.97 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   2%|▏         | 3308/179674 [00:11<04:34, 641.39 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   2%|▏         | 3472/179674 [00:11<03:29, 840.94 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   2%|▏         | 3576/179674 [00:11<03:44, 783.76 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   2%|▏         | 3730/179674 [00:12<03:07, 938.55 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   2%|▏         | 3839/179674 [00:12<03:23, 865.42 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   2%|▏         | 3938/179674 [00:12<04:32, 643.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   2%|▏         | 4099/179674 [00:12<03:32, 826.03 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   2%|▏         | 4205/179674 [00:12<03:23, 864.21 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   2%|▏         | 4307/179674 [00:12<03:22, 867.96 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   2%|▏         | 4417/179674 [00:12<03:25, 850.89 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   3%|▎         | 4510/179674 [00:13<06:07, 477.03 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   3%|▎         | 4645/179674 [00:13<04:49, 604.97 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   3%|▎         | 4739/179674 [00:13<04:27, 654.57 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   3%|▎         | 4835/179674 [00:13<04:03, 716.76 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   3%|▎         | 4933/179674 [00:13<04:10, 696.27 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   3%|▎        | 5319/179674 [00:13<02:04, 1405.91 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   3%|▎        | 5493/179674 [00:14<02:19, 1251.81 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   3%|▎        | 5770/179674 [00:14<02:24, 1205.36 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   3%|▎        | 6116/179674 [00:14<02:09, 1336.01 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   4%|▎        | 6385/179674 [00:14<01:50, 1574.60 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   4%|▎        | 6565/179674 [00:14<02:18, 1250.58 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   4%|▎        | 6795/179674 [00:15<02:20, 1229.27 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   4%|▍         | 6935/179674 [00:15<02:59, 962.70 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   4%|▍         | 7048/179674 [00:15<03:04, 935.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   4%|▍         | 7157/179674 [00:15<04:05, 702.13 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   4%|▍         | 7243/179674 [00:16<04:12, 683.10 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   4%|▍         | 7321/179674 [00:16<05:43, 502.09 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   4%|▍         | 7440/179674 [00:16<04:55, 582.52 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   4%|▍         | 7664/179674 [00:16<03:48, 751.27 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   4%|▍         | 7780/179674 [00:16<03:41, 776.20 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   4%|▍         | 7867/179674 [00:16<04:13, 678.89 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   5%|▍        | 8297/179674 [00:17<02:05, 1362.26 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   5%|▍         | 8476/179674 [00:17<02:58, 959.53 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   5%|▍        | 8724/179674 [00:17<02:45, 1032.81 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   5%|▍         | 8860/179674 [00:17<02:56, 967.42 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   5%|▍         | 8978/179674 [00:18<04:04, 697.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   5%|▍        | 9309/179674 [00:18<02:41, 1057.72 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   5%|▍        | 9459/179674 [00:18<02:30, 1128.30 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   5%|▌         | 9628/179674 [00:18<03:43, 760.50 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   5%|▌         | 9849/179674 [00:18<02:56, 962.06 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   6%|▌        | 10125/179674 [00:19<04:33, 619.92 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   6%|▌        | 10350/179674 [00:19<03:37, 778.36 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   6%|▌        | 10553/179674 [00:19<02:59, 940.94 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   6%|▌        | 10708/179674 [00:20<03:15, 865.08 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   6%|▍       | 10924/179674 [00:20<02:39, 1058.92 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   6%|▍       | 11202/179674 [00:20<02:03, 1364.16 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   6%|▌       | 11412/179674 [00:20<01:51, 1503.25 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   6%|▌       | 11661/179674 [00:20<01:54, 1473.51 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   7%|▌       | 11970/179674 [00:20<01:32, 1822.31 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   7%|▌       | 12187/179674 [00:20<01:28, 1892.56 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   7%|▌       | 12402/179674 [00:20<01:32, 1811.75 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   7%|▌       | 12697/179674 [00:21<01:27, 1907.78 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   7%|▌       | 12981/179674 [00:21<01:18, 2125.10 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   7%|▌       | 13234/179674 [00:21<01:34, 1769.99 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   7%|▌       | 13443/179674 [00:21<01:39, 1678.04 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   8%|▌       | 13628/179674 [00:21<01:36, 1716.52 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   8%|▌       | 13842/179674 [00:21<01:31, 1804.09 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   8%|▌       | 14032/179674 [00:21<02:09, 1276.19 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   8%|▋       | 14186/179674 [00:22<02:10, 1266.33 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   8%|▋       | 14591/179674 [00:22<01:32, 1781.37 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   8%|▋       | 14870/179674 [00:22<01:21, 2011.29 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   8%|▋       | 15094/179674 [00:22<01:39, 1658.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   9%|▋       | 15300/179674 [00:22<01:44, 1570.79 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   9%|▋       | 15474/179674 [00:22<01:54, 1433.55 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   9%|▋       | 15630/179674 [00:22<01:57, 1402.01 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   9%|▋       | 15778/179674 [00:23<02:03, 1326.85 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   9%|▋       | 15916/179674 [00:23<02:08, 1274.25 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   9%|▋       | 16061/179674 [00:23<02:04, 1315.00 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   9%|▋       | 16200/179674 [00:23<02:08, 1276.71 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   9%|▋       | 16367/179674 [00:23<01:58, 1374.72 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   9%|▋       | 16510/179674 [00:23<01:58, 1374.67 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   9%|▋       | 16654/179674 [00:23<01:57, 1392.46 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   9%|▋       | 16815/179674 [00:23<02:00, 1352.13 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):   9%|▊       | 16999/179674 [00:23<01:50, 1474.25 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  10%|▊       | 17161/179674 [00:24<01:49, 1480.49 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  10%|▊       | 17312/179674 [00:24<01:49, 1479.93 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  10%|▊       | 17487/179674 [00:24<01:46, 1527.41 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  10%|▊       | 17659/179674 [00:24<01:42, 1573.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  10%|▊       | 17818/179674 [00:24<01:48, 1491.52 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  10%|▊       | 17987/179674 [00:24<01:44, 1547.14 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  10%|▊       | 18144/179674 [00:24<01:52, 1430.33 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  10%|▊       | 18290/179674 [00:24<01:52, 1432.70 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  10%|▊       | 18435/179674 [00:24<01:58, 1359.37 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  10%|▊       | 18573/179674 [00:25<01:59, 1348.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  10%|▊       | 18714/179674 [00:25<02:00, 1340.20 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  10%|▊       | 18851/179674 [00:25<02:02, 1317.61 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  11%|▊       | 18985/179674 [00:25<02:01, 1322.03 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  11%|▊       | 19145/179674 [00:25<01:55, 1387.62 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  11%|▊       | 19292/179674 [00:25<01:53, 1410.47 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  11%|▊       | 19435/179674 [00:25<01:56, 1370.08 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  11%|▊       | 19574/179674 [00:25<02:00, 1329.40 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  11%|▉       | 19766/179674 [00:25<01:46, 1496.15 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  11%|▉       | 19917/179674 [00:25<01:46, 1494.55 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  11%|▉       | 20100/179674 [00:26<01:44, 1525.03 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  11%|▉       | 20269/179674 [00:26<01:52, 1422.63 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  11%|▉       | 20414/179674 [00:26<01:56, 1368.90 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  11%|▉       | 20553/179674 [00:26<01:59, 1328.44 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  12%|▉       | 20688/179674 [00:26<02:02, 1299.84 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  12%|▉       | 20819/179674 [00:26<02:11, 1205.65 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  12%|▉       | 20941/179674 [00:26<02:13, 1193.10 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  12%|▉       | 21062/179674 [00:26<02:17, 1154.20 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  12%|▉       | 21178/179674 [00:26<02:18, 1144.86 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  12%|▉       | 21314/179674 [00:27<02:12, 1194.74 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  12%|▉       | 21434/179674 [00:27<02:15, 1169.67 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  12%|▉       | 21552/179674 [00:27<02:25, 1089.62 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  12%|▉       | 21682/179674 [00:27<02:17, 1146.72 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  12%|▉       | 21798/179674 [00:27<02:19, 1132.13 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  12%|▉       | 21913/179674 [00:27<02:20, 1124.77 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  12%|▉       | 22027/179674 [00:27<02:28, 1060.75 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  12%|▉       | 22143/179674 [00:27<02:25, 1085.45 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  12%|▉       | 22292/179674 [00:27<02:11, 1199.88 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  12%|▉       | 22416/179674 [00:28<02:09, 1211.33 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  13%|█       | 22569/179674 [00:28<02:00, 1302.17 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  13%|█       | 22701/179674 [00:28<02:08, 1222.56 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  13%|█       | 22895/179674 [00:28<01:50, 1419.81 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  13%|█       | 23041/179674 [00:28<02:03, 1267.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  13%|█       | 23183/179674 [00:28<01:59, 1306.31 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  13%|█       | 23318/179674 [00:28<02:06, 1234.19 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  13%|█       | 23445/179674 [00:28<02:12, 1180.76 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  13%|█       | 23567/179674 [00:28<02:16, 1144.09 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  13%|█       | 23683/179674 [00:29<02:27, 1056.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  13%|█       | 23791/179674 [00:29<02:30, 1035.11 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  13%|█▏       | 23896/179674 [00:29<02:40, 971.74 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  13%|█       | 24026/179674 [00:29<02:28, 1051.58 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  13%|█       | 24137/179674 [00:29<02:26, 1061.94 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  14%|█       | 24265/179674 [00:29<02:19, 1115.92 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  14%|█       | 24404/179674 [00:29<02:10, 1191.89 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  14%|█       | 24532/179674 [00:29<02:07, 1214.74 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  14%|█       | 24656/179674 [00:29<02:06, 1221.60 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  14%|█       | 24808/179674 [00:30<01:58, 1308.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  14%|█       | 24941/179674 [00:30<02:08, 1204.45 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  14%|█       | 25110/179674 [00:30<01:55, 1339.67 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  14%|█▏      | 25273/179674 [00:30<01:48, 1419.06 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  14%|█▏      | 25418/179674 [00:30<01:53, 1362.03 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  14%|█▏      | 25558/179674 [00:30<01:53, 1359.50 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  14%|█▏      | 25696/179674 [00:30<02:00, 1277.78 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  14%|█▏      | 25849/179674 [00:30<01:54, 1346.46 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  14%|█▏      | 26030/179674 [00:30<01:43, 1477.40 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  15%|█▏      | 26181/179674 [00:31<01:46, 1434.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  15%|█▏      | 26327/179674 [00:31<01:54, 1334.91 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  15%|█▏      | 26465/179674 [00:31<01:53, 1346.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  15%|█▏      | 26609/179674 [00:31<01:55, 1324.35 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  15%|█▏      | 26766/179674 [00:31<01:50, 1386.69 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  15%|█▏      | 26911/179674 [00:31<01:52, 1354.65 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  15%|█▏      | 27053/179674 [00:31<01:51, 1365.90 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  15%|█▏      | 27191/179674 [00:31<01:51, 1363.39 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  15%|█▏      | 27329/179674 [00:31<01:54, 1333.30 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  15%|█▏      | 27490/179674 [00:32<01:48, 1404.51 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  15%|█▏      | 27631/179674 [00:32<01:53, 1333.82 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  15%|█▏      | 27767/179674 [00:32<02:06, 1201.53 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  16%|█▏      | 27944/179674 [00:32<01:52, 1350.93 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  16%|█▎      | 28084/179674 [00:32<02:12, 1139.98 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  16%|█▎      | 28206/179674 [00:32<02:21, 1068.73 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  16%|█▍       | 28319/179674 [00:32<02:36, 965.19 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  16%|█▍       | 28430/179674 [00:32<02:33, 985.79 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  16%|█▎      | 28549/179674 [00:33<02:25, 1036.58 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  16%|█▍       | 28658/179674 [00:33<02:40, 941.56 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  16%|█▎      | 28789/179674 [00:33<02:26, 1032.48 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  16%|█▎      | 28898/179674 [00:33<02:30, 1001.48 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  16%|█▍       | 29003/179674 [00:33<02:45, 910.54 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  16%|█▍       | 29098/179674 [00:33<02:46, 904.59 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  16%|█▍       | 29191/179674 [00:33<02:45, 908.41 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  16%|█▍       | 29284/179674 [00:33<03:28, 720.08 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  16%|█▍       | 29403/179674 [00:34<03:01, 829.96 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  16%|█▍       | 29494/179674 [00:34<03:00, 833.81 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  16%|█▍       | 29583/179674 [00:34<02:58, 838.50 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  17%|█▍       | 29690/179674 [00:34<02:46, 900.21 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  17%|█▍       | 29784/179674 [00:34<02:44, 909.33 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  17%|█▍       | 29878/179674 [00:34<03:30, 710.79 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  17%|█▌       | 30036/179674 [00:34<02:56, 847.62 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  17%|█▌       | 30157/179674 [00:34<02:41, 925.03 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  17%|█▌       | 30274/179674 [00:35<02:31, 986.46 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  17%|█▎      | 30387/179674 [00:35<02:26, 1021.88 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  17%|█▎      | 30514/179674 [00:35<02:18, 1076.16 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  17%|█▎      | 30626/179674 [00:35<02:17, 1083.31 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  17%|█▎      | 30741/179674 [00:35<02:16, 1094.77 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  17%|█▎      | 30853/179674 [00:35<02:22, 1047.27 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  17%|█▍      | 31014/179674 [00:35<02:03, 1199.59 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  17%|█▍      | 31138/179674 [00:35<02:02, 1210.28 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  17%|█▍      | 31270/179674 [00:35<01:59, 1240.46 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  17%|█▍      | 31396/179674 [00:35<02:03, 1201.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  18%|█▍      | 31518/179674 [00:36<02:03, 1194.91 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  18%|█▍      | 31640/179674 [00:36<02:04, 1192.77 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  18%|█▍      | 31761/179674 [00:36<02:07, 1155.63 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  18%|█▍      | 31903/179674 [00:36<02:01, 1216.72 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  18%|█▍      | 32028/179674 [00:36<02:01, 1218.10 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  18%|█▍      | 32166/179674 [00:36<01:57, 1252.47 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  18%|█▍      | 32325/179674 [00:36<01:50, 1334.72 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  18%|█▍      | 32460/179674 [00:36<01:50, 1337.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  18%|█▍      | 32594/179674 [00:36<01:52, 1303.93 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  18%|█▍      | 32774/179674 [00:37<01:45, 1387.87 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  18%|█▍      | 32933/179674 [00:37<01:41, 1444.48 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  18%|█▍      | 33144/179674 [00:37<01:30, 1626.10 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  19%|█▍      | 33316/179674 [00:37<01:28, 1651.09 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  19%|█▍      | 33484/179674 [00:37<01:30, 1615.01 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  19%|█▍      | 33655/179674 [00:37<01:29, 1628.93 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  19%|█▌      | 33819/179674 [00:37<01:40, 1453.12 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  19%|█▌      | 33969/179674 [00:37<01:42, 1416.69 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  19%|█▌      | 34114/179674 [00:37<01:49, 1332.94 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  19%|█▌      | 34250/179674 [00:38<01:53, 1279.21 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  19%|█▌      | 34380/179674 [00:38<01:57, 1235.49 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  19%|█▌      | 34507/179674 [00:38<01:57, 1232.67 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  19%|█▌      | 34633/179674 [00:38<02:01, 1188.97 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  19%|█▌      | 34753/179674 [00:38<02:06, 1146.57 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  19%|█▌      | 34869/179674 [00:38<02:14, 1076.20 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  19%|█▌      | 34982/179674 [00:38<02:12, 1089.81 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  20%|█▌      | 35117/179674 [00:38<02:04, 1158.46 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  20%|█▌      | 35271/179674 [00:38<01:54, 1256.38 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  20%|█▌      | 35421/179674 [00:39<01:49, 1311.70 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  20%|█▌      | 35607/179674 [00:39<01:38, 1468.20 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  20%|█▌      | 35757/179674 [00:39<01:39, 1450.73 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  20%|█▌      | 35904/179674 [00:39<01:45, 1363.69 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  20%|█▌      | 36080/179674 [00:39<01:37, 1473.97 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  20%|█▌      | 36231/179674 [00:39<01:51, 1281.66 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  20%|█▌      | 36483/179674 [00:39<01:29, 1603.68 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  20%|█▋      | 36656/179674 [00:39<01:27, 1636.53 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  20%|█▋      | 36832/179674 [00:39<01:26, 1642.94 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  21%|█▋      | 37002/179674 [00:40<01:27, 1630.04 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  21%|█▋      | 37169/179674 [00:40<01:29, 1588.64 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  21%|█▋      | 37332/179674 [00:40<01:30, 1581.02 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  21%|█▋      | 37507/179674 [00:40<01:27, 1625.32 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  21%|█▋      | 37693/179674 [00:40<01:24, 1671.92 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  21%|█▋      | 37898/179674 [00:40<01:23, 1700.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  21%|█▋      | 38129/179674 [00:40<01:15, 1864.89 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  21%|█▋      | 38325/179674 [00:40<01:14, 1888.67 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  21%|█▋      | 38515/179674 [00:40<01:18, 1793.27 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  22%|█▋      | 38697/179674 [00:40<01:21, 1734.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  22%|█▋      | 38876/179674 [00:41<01:26, 1632.33 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  22%|█▋      | 39041/179674 [00:41<01:28, 1580.43 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  22%|█▋      | 39201/179674 [00:41<01:33, 1502.25 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  22%|█▊      | 39357/179674 [00:41<01:34, 1489.11 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  22%|█▊      | 39545/179674 [00:41<01:31, 1534.88 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "[rank: 7] Global seed set to 1010560597\r\n",
-      "initializing deepspeed distributed: GLOBAL_RANK: 7, MEMBER: 8/8\r\n",
-      "[2023-09-01 16:11:11,886] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n",
-      "\r",
-      "Map (num_proc=64):  22%|█▊      | 39700/179674 [00:41<01:33, 1498.99 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  22%|█▊      | 39854/179674 [00:41<01:34, 1483.74 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  22%|█▊      | 40006/179674 [00:41<01:34, 1475.15 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "[rank: 4] Global seed set to 1010560597\r\n",
-      "initializing deepspeed distributed: GLOBAL_RANK: 4, MEMBER: 5/8\r\n",
-      "[2023-09-01 16:11:12,181] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  22%|█▊      | 40158/179674 [00:41<01:34, 1482.11 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  22%|█▊      | 40331/179674 [00:42<01:29, 1550.38 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  23%|█▊      | 40490/179674 [00:42<01:31, 1514.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  23%|█▊      | 40642/179674 [00:42<01:34, 1469.91 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  23%|█▊      | 40812/179674 [00:42<01:30, 1527.05 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  23%|█▊      | 40972/179674 [00:42<01:31, 1523.20 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  23%|█▊      | 41158/179674 [00:42<01:25, 1617.49 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  23%|█▊      | 41328/179674 [00:42<01:25, 1626.59 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  23%|█▊      | 41527/179674 [00:42<01:20, 1719.15 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  23%|█▊      | 41700/179674 [00:42<01:22, 1674.23 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  23%|█▊      | 41868/179674 [00:43<02:01, 1135.98 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  24%|█▉      | 42237/179674 [00:43<01:21, 1684.93 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  24%|█▉      | 42447/179674 [00:43<01:17, 1766.79 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  24%|█▉      | 42652/179674 [00:43<01:16, 1791.68 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  24%|█▉      | 42853/179674 [00:43<01:14, 1847.58 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  24%|█▉      | 43065/179674 [00:43<01:11, 1917.12 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  24%|█▉      | 43268/179674 [00:43<01:12, 1881.92 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  24%|█▉      | 43471/179674 [00:43<01:14, 1824.68 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  24%|█▉      | 43661/179674 [00:44<01:18, 1735.98 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  24%|█▉      | 43839/179674 [00:44<01:18, 1736.69 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  24%|█▉      | 44016/179674 [00:44<01:20, 1684.26 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  25%|█▉      | 44187/179674 [00:44<01:21, 1659.90 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  25%|█▉      | 44356/179674 [00:44<01:26, 1571.47 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  25%|█▉      | 44529/179674 [00:44<01:23, 1609.94 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  25%|█▉      | 44695/179674 [00:44<01:25, 1581.88 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  25%|█▉      | 44855/179674 [00:44<01:29, 1511.67 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  25%|██      | 45024/179674 [00:44<01:27, 1535.55 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  25%|██      | 45179/179674 [00:45<01:31, 1468.96 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  25%|██      | 45383/179674 [00:45<01:22, 1625.63 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  25%|██      | 45549/179674 [00:45<01:25, 1567.63 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  25%|██      | 45709/179674 [00:45<01:27, 1524.24 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  26%|██      | 46015/179674 [00:45<01:08, 1946.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  26%|██      | 46306/179674 [00:45<01:02, 2139.04 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  26%|██      | 46526/179674 [00:45<01:01, 2155.97 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  26%|██      | 46744/179674 [00:45<01:10, 1897.54 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  26%|██      | 47016/179674 [00:45<01:03, 2099.57 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  26%|██      | 47255/179674 [00:46<01:01, 2168.75 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  26%|██      | 47478/179674 [00:46<01:06, 1999.11 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  27%|██      | 47684/179674 [00:46<01:06, 1993.94 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  27%|██▏     | 47889/179674 [00:46<01:10, 1877.03 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  27%|██▏     | 48082/179674 [00:46<01:11, 1851.62 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  27%|██▏     | 48270/179674 [00:46<01:16, 1723.05 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  27%|██▏     | 48446/179674 [00:46<01:16, 1717.99 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  27%|██▏     | 48621/179674 [00:46<01:18, 1669.22 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  27%|██▏     | 48798/179674 [00:47<01:21, 1608.51 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  27%|██▏     | 48960/179674 [00:47<01:22, 1585.93 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  27%|██▏     | 49143/179674 [00:47<01:19, 1646.34 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  27%|██▏     | 49319/179674 [00:47<01:17, 1676.02 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  28%|██▏     | 49515/179674 [00:47<01:14, 1747.44 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  28%|██▏     | 49692/179674 [00:47<01:15, 1727.17 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  28%|██▏     | 49877/179674 [00:47<01:21, 1592.85 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  28%|██▏     | 50045/179674 [00:47<01:21, 1581.03 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  28%|██▏     | 50232/179674 [00:47<01:19, 1630.73 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  28%|██▏     | 50496/179674 [00:47<01:07, 1910.80 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  28%|██▎     | 50691/179674 [00:48<01:11, 1797.25 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  28%|██▎     | 50876/179674 [00:48<01:15, 1699.03 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  28%|██▎     | 51052/179674 [00:48<01:15, 1695.88 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  29%|██▎     | 51224/179674 [00:48<01:15, 1692.36 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  29%|██▎     | 51395/179674 [00:48<01:16, 1669.54 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  29%|██▎     | 51586/179674 [00:48<01:14, 1717.62 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  29%|██▎     | 51794/179674 [00:48<01:10, 1817.93 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  29%|██▎     | 51983/179674 [00:48<01:09, 1837.64 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  29%|██▎     | 52171/179674 [00:48<01:11, 1779.61 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  29%|██▎     | 52354/179674 [00:49<01:11, 1774.41 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  29%|██▎     | 52534/179674 [00:49<01:12, 1745.25 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  29%|██▎     | 52713/179674 [00:49<01:14, 1710.33 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  29%|██▎     | 52888/179674 [00:49<01:18, 1608.51 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  30%|██▎     | 53066/179674 [00:49<01:17, 1632.06 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  30%|██▎     | 53256/179674 [00:49<01:14, 1706.43 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  30%|██▍     | 53461/179674 [00:49<01:10, 1801.44 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  30%|██▍     | 53644/179674 [00:49<01:11, 1770.06 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  30%|██▍     | 53825/179674 [00:49<01:11, 1771.84 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  30%|██▍     | 54005/179674 [00:50<01:12, 1732.11 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  30%|██▍     | 54188/179674 [00:50<01:11, 1760.12 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  30%|██▍     | 54367/179674 [00:50<01:10, 1766.84 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  30%|██▍     | 54545/179674 [00:50<01:12, 1718.46 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  30%|██▍     | 54720/179674 [00:50<01:14, 1685.34 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  31%|██▍     | 54889/179674 [00:50<01:16, 1635.18 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  31%|██▍     | 55057/179674 [00:50<01:24, 1471.59 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  31%|██▍     | 55209/179674 [00:50<01:24, 1468.01 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  31%|██▍     | 55414/179674 [00:50<01:16, 1625.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  31%|██▍     | 55620/179674 [00:50<01:11, 1744.93 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  31%|██▍     | 55837/179674 [00:51<01:06, 1865.65 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  31%|██▍     | 56029/179674 [00:51<01:09, 1781.98 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  31%|██▌     | 56210/179674 [00:51<01:10, 1761.55 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  31%|██▌     | 56427/179674 [00:51<01:05, 1876.20 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  32%|██▌     | 56617/179674 [00:51<01:08, 1804.06 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  32%|██▌     | 56843/179674 [00:51<01:03, 1930.28 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  32%|██▌     | 57039/179674 [00:51<01:03, 1936.59 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  32%|██▌     | 57235/179674 [00:51<01:24, 1452.67 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  32%|██▌     | 57540/179674 [00:52<01:07, 1822.23 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  32%|██▌     | 57745/179674 [00:52<01:08, 1772.71 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  32%|██▌     | 57938/179674 [00:52<01:07, 1811.64 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  32%|██▌     | 58132/179674 [00:52<01:06, 1836.74 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  32%|██▌     | 58341/179674 [00:52<01:03, 1897.37 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  33%|██▌     | 58569/179674 [00:52<01:01, 1982.54 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  33%|██▌     | 58772/179674 [00:52<01:02, 1921.12 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  33%|██▋     | 58971/179674 [00:52<01:06, 1811.86 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  33%|██▋     | 59157/179674 [00:52<01:11, 1686.63 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  33%|██▋     | 59332/179674 [00:53<01:14, 1625.82 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  33%|██▋     | 59529/179674 [00:53<01:10, 1715.88 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  33%|██▋     | 59705/179674 [00:53<01:12, 1664.33 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  33%|██▋     | 59874/179674 [00:53<01:12, 1647.64 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  33%|██▋     | 60041/179674 [00:53<01:13, 1626.82 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  34%|██▋     | 60205/179674 [00:53<01:19, 1502.41 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  34%|██▋     | 60359/179674 [00:53<01:25, 1398.29 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  34%|██▋     | 60505/179674 [00:53<01:25, 1394.29 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  34%|██▋     | 60646/179674 [00:53<01:29, 1326.99 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  34%|██▋     | 60795/179674 [00:54<01:26, 1369.75 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  34%|██▋     | 60974/179674 [00:54<01:19, 1485.65 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  34%|██▋     | 61125/179674 [00:54<01:41, 1165.01 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  34%|██▋     | 61322/179674 [00:54<01:27, 1356.66 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  34%|██▋     | 61479/179674 [00:54<01:29, 1325.98 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  34%|██▋     | 61621/179674 [00:54<01:32, 1281.41 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  34%|██▋     | 61756/179674 [00:54<01:35, 1235.91 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  34%|██▊     | 61887/179674 [00:54<01:36, 1218.11 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  35%|██▊     | 62013/179674 [00:55<01:35, 1225.82 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  35%|██▊     | 62180/179674 [00:55<01:27, 1341.08 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  35%|██▊     | 62335/179674 [00:55<01:24, 1386.17 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  35%|██▊     | 62476/179674 [00:55<01:25, 1367.55 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  35%|██▊     | 62639/179674 [00:55<01:21, 1441.64 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  35%|██▊     | 62785/179674 [00:55<01:22, 1424.57 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  35%|██▊     | 62931/179674 [00:55<01:21, 1426.46 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  35%|██▊     | 63075/179674 [00:55<01:23, 1396.86 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  35%|██▊     | 63226/179674 [00:55<01:30, 1282.88 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  35%|██▊     | 63391/179674 [00:56<01:24, 1376.75 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  35%|██▊     | 63534/179674 [00:56<01:23, 1388.79 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  35%|██▊     | 63676/179674 [00:56<01:28, 1317.50 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  36%|██▊     | 63812/179674 [00:56<01:34, 1220.20 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  36%|██▊     | 63941/179674 [00:56<01:35, 1211.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  36%|██▊     | 64068/179674 [00:56<01:34, 1223.82 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  36%|██▊     | 64195/179674 [00:56<01:33, 1232.21 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  36%|██▊     | 64374/179674 [00:56<01:22, 1389.36 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  36%|██▊     | 64542/179674 [00:56<01:18, 1470.74 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  36%|██▉     | 64780/179674 [00:57<01:06, 1728.62 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  36%|██▉     | 64956/179674 [00:57<01:09, 1659.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  36%|██▉     | 65124/179674 [00:57<01:17, 1468.77 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  36%|██▉     | 65277/179674 [00:57<01:19, 1437.93 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  36%|██▉     | 65424/179674 [00:57<01:22, 1388.91 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  36%|██▉     | 65567/179674 [00:57<01:31, 1250.29 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  37%|██▉     | 65709/179674 [00:57<01:30, 1264.86 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  37%|██▉     | 65857/179674 [00:57<01:31, 1248.12 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  37%|██▉     | 66112/179674 [00:57<01:11, 1583.30 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  37%|██▉     | 66286/179674 [00:58<01:10, 1619.00 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  37%|██▉     | 66498/179674 [00:58<01:04, 1754.24 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  37%|██▉     | 66681/179674 [00:58<01:09, 1632.08 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  37%|██▉     | 66850/179674 [00:58<01:14, 1515.00 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  37%|██▉     | 67008/179674 [00:58<01:13, 1528.36 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  37%|██▉     | 67174/179674 [00:58<01:13, 1524.50 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  38%|███     | 67392/179674 [00:58<01:06, 1684.25 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  38%|███     | 67653/179674 [00:58<00:57, 1940.44 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  38%|███     | 67851/179674 [00:58<00:59, 1877.98 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  38%|███     | 68042/179674 [00:59<01:01, 1813.78 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  38%|███     | 68229/179674 [00:59<01:04, 1725.30 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  38%|███     | 68408/179674 [00:59<01:03, 1739.51 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  38%|███     | 68587/179674 [00:59<01:19, 1392.26 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  38%|███     | 68793/179674 [00:59<01:11, 1548.55 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  38%|███     | 68960/179674 [00:59<01:26, 1280.42 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  38%|███     | 69154/179674 [00:59<01:17, 1430.27 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  39%|███     | 69319/179674 [00:59<01:14, 1478.64 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  39%|███▍     | 69481/179674 [01:00<02:08, 858.99 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  39%|███     | 69682/179674 [01:00<01:44, 1056.70 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  39%|███     | 69913/179674 [01:00<01:24, 1304.53 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  39%|███     | 70086/179674 [01:00<01:27, 1256.57 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  39%|███▏    | 70243/179674 [01:00<01:25, 1275.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  39%|███▏    | 70447/179674 [01:00<01:15, 1449.60 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  39%|███▏    | 70639/179674 [01:01<01:09, 1566.57 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  39%|███▏    | 70855/179674 [01:01<01:03, 1709.86 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  40%|███▏    | 71068/179674 [01:01<00:59, 1810.46 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  40%|███▏    | 71303/179674 [01:01<00:55, 1959.28 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  40%|███▏    | 71507/179674 [01:01<01:11, 1513.63 examples/s][rank: 6] Global seed set to 1010560597\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "initializing deepspeed distributed: GLOBAL_RANK: 6, MEMBER: 7/8\r\n",
-      "[2023-09-01 16:11:31,802] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  40%|███▏    | 71849/179674 [01:01<01:01, 1756.25 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  40%|███▏    | 72305/179674 [01:01<00:44, 2406.55 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  41%|███▏    | 72781/179674 [01:01<00:35, 2992.29 examples/s][rank: 3] Global seed set to 1010560597\r\n",
-      "initializing deepspeed distributed: GLOBAL_RANK: 3, MEMBER: 4/8\r\n",
-      "[2023-09-01 16:11:32,152] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  41%|███▎    | 73339/179674 [01:02<00:28, 3670.65 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "[rank: 1] Global seed set to 1010560597\r\n",
-      "initializing deepspeed distributed: GLOBAL_RANK: 1, MEMBER: 2/8\r\n",
-      "[2023-09-01 16:11:32,285] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  41%|███▎    | 74185/179674 [01:02<00:21, 4944.13 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "[rank: 2] Global seed set to 1010560597\r\n",
-      "initializing deepspeed distributed: GLOBAL_RANK: 2, MEMBER: 3/8\r\n",
-      "[2023-09-01 16:11:32,422] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n",
-      "\r",
-      "Map (num_proc=64):  42%|███▎    | 74714/179674 [01:02<00:21, 4941.68 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  42%|███▎    | 75236/179674 [01:02<00:21, 4790.64 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "[rank: 5] Global seed set to 1010560597\r\n",
-      "initializing deepspeed distributed: GLOBAL_RANK: 5, MEMBER: 6/8\r\n",
-      "[2023-09-01 16:11:32,614] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  42%|███▎    | 75739/179674 [01:02<00:23, 4443.41 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  42%|███▍    | 76202/179674 [01:02<00:23, 4466.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  43%|███▍    | 76660/179674 [01:02<00:23, 4373.94 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  43%|███▍    | 77109/179674 [01:02<00:24, 4273.03 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  43%|███▍    | 77547/179674 [01:02<00:23, 4288.98 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  43%|███▍    | 77981/179674 [01:03<00:23, 4299.85 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  44%|███▍    | 78464/179674 [01:03<00:22, 4442.61 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  44%|███▌    | 78911/179674 [01:03<00:22, 4414.08 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  44%|███▌    | 79459/179674 [01:03<00:21, 4712.87 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  44%|███▌    | 79934/179674 [01:03<00:21, 4661.90 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  45%|███▌    | 80411/179674 [01:03<00:23, 4216.19 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  45%|███▌    | 80842/179674 [01:03<00:24, 4075.67 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  45%|███▌    | 81256/179674 [01:03<00:26, 3668.32 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  45%|███▋    | 81652/179674 [01:03<00:26, 3711.26 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  46%|███▋    | 82293/179674 [01:04<00:22, 4423.74 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  46%|███▋    | 82750/179674 [01:04<00:23, 4120.63 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  46%|███▋    | 83246/179674 [01:04<00:22, 4335.63 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  47%|███▋    | 83731/179674 [01:04<00:21, 4476.35 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  47%|███▋    | 84189/179674 [01:04<00:23, 4136.34 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  47%|███▊    | 84662/179674 [01:04<00:22, 4294.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  47%|███▊    | 85110/179674 [01:04<00:21, 4340.22 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  48%|███▊    | 85582/179674 [01:04<00:21, 4427.09 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  48%|███▊    | 86045/179674 [01:04<00:20, 4484.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  48%|███▊    | 86499/179674 [01:05<00:22, 4229.87 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  48%|███▊    | 86947/179674 [01:05<00:21, 4285.49 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  49%|███▉    | 87408/179674 [01:05<00:21, 4363.68 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  49%|███▉    | 87850/179674 [01:05<00:21, 4289.12 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  49%|███▉    | 88307/179674 [01:05<00:21, 4318.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  49%|███▉    | 88741/179674 [01:05<00:21, 4245.99 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  50%|███▉    | 89168/179674 [01:05<00:21, 4215.45 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  50%|███▉    | 89670/179674 [01:05<00:20, 4446.90 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  50%|████    | 90119/179674 [01:05<00:24, 3646.97 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  51%|████    | 90751/179674 [01:06<00:20, 4323.65 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  51%|████    | 91214/179674 [01:06<00:20, 4305.26 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  51%|████    | 91667/179674 [01:06<00:21, 4082.61 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  51%|████    | 92094/179674 [01:06<00:21, 4090.70 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  51%|████    | 92517/179674 [01:06<00:21, 4055.13 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  52%|████▏   | 93000/179674 [01:06<00:20, 4267.26 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  52%|████▏   | 93438/179674 [01:06<00:20, 4115.86 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  52%|████▏   | 93858/179674 [01:06<00:20, 4106.46 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  52%|████▏   | 94306/179674 [01:06<00:20, 4206.04 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  53%|████▏   | 94748/179674 [01:06<00:20, 4234.33 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  53%|████▏   | 95176/179674 [01:07<00:22, 3781.92 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  53%|████▎   | 95692/179674 [01:07<00:20, 4148.06 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  54%|████▎   | 96141/179674 [01:07<00:19, 4222.23 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  54%|████▎   | 96612/179674 [01:07<00:19, 4354.91 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  54%|████▎   | 97057/179674 [01:07<00:18, 4380.26 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  54%|████▎   | 97506/179674 [01:07<00:18, 4393.45 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  55%|████▎   | 97966/179674 [01:07<00:18, 4449.74 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  55%|████▍   | 98444/179674 [01:07<00:17, 4545.57 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  55%|████▍   | 98918/179674 [01:07<00:17, 4494.00 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  55%|████▍   | 99370/179674 [01:08<00:18, 4461.09 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  56%|████▍   | 99818/179674 [01:08<00:18, 4400.78 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  56%|███▉   | 100306/179674 [01:08<00:17, 4522.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  56%|███▉   | 100781/179674 [01:08<00:17, 4521.57 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  56%|███▉   | 101237/179674 [01:08<00:17, 4388.30 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  57%|███▉   | 101678/179674 [01:08<00:19, 4061.90 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  57%|███▉   | 102092/179674 [01:08<00:19, 3958.90 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  57%|███▉   | 102494/179674 [01:08<00:21, 3630.08 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  57%|████   | 102918/179674 [01:08<00:20, 3758.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  58%|████   | 103452/179674 [01:09<00:18, 4188.25 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  58%|████   | 103881/179674 [01:09<00:18, 4108.00 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  58%|████   | 104301/179674 [01:09<00:18, 3998.60 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  58%|████   | 104706/179674 [01:09<00:19, 3877.42 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  59%|████   | 105137/179674 [01:09<00:19, 3872.39 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  59%|████   | 105534/179674 [01:09<00:19, 3860.74 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  59%|████▏  | 105922/179674 [01:09<00:20, 3632.49 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  59%|████▏  | 106289/179674 [01:09<00:20, 3612.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  59%|████▏  | 106654/179674 [01:09<00:20, 3527.54 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  60%|████▏  | 107009/179674 [01:10<00:21, 3335.13 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  60%|████▏  | 107351/179674 [01:10<00:22, 3170.13 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  60%|████▏  | 107818/179674 [01:10<00:20, 3568.82 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  60%|████▏  | 108202/179674 [01:10<00:19, 3641.21 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  60%|████▏  | 108571/179674 [01:10<00:20, 3472.39 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  61%|████▏  | 108923/179674 [01:10<00:21, 3323.96 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  61%|████▎  | 109259/179674 [01:10<00:21, 3308.25 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  61%|████▎  | 109593/179674 [01:10<00:21, 3282.01 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  61%|████▎  | 109956/179674 [01:10<00:20, 3360.57 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  61%|████▎  | 110404/179674 [01:11<00:18, 3675.67 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  62%|████▎  | 110777/179674 [01:11<00:19, 3553.68 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  62%|████▎  | 111138/179674 [01:11<00:19, 3547.37 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  62%|████▎  | 111505/179674 [01:11<00:19, 3575.40 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  62%|████▎  | 111888/179674 [01:11<00:18, 3621.35 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  62%|████▎  | 112254/179674 [01:11<00:21, 3203.45 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  63%|████▍  | 112714/179674 [01:11<00:18, 3576.35 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  63%|████▍  | 113083/179674 [01:11<00:18, 3558.60 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  63%|████▍  | 113448/179674 [01:11<00:18, 3493.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  63%|████▍  | 113811/179674 [01:11<00:18, 3513.04 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  64%|████▍  | 114166/179674 [01:12<00:18, 3459.84 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  64%|████▍  | 114534/179674 [01:12<00:18, 3511.18 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  64%|████▍  | 114901/179674 [01:12<00:18, 3503.25 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  64%|████▍  | 115266/179674 [01:12<00:18, 3511.17 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  64%|████▌  | 115636/179674 [01:12<00:18, 3555.86 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  65%|████▌  | 115994/179674 [01:12<00:17, 3541.60 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  65%|████▌  | 116350/179674 [01:12<00:18, 3338.84 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  65%|████▌  | 116737/179674 [01:12<00:18, 3484.37 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  65%|████▌  | 117089/179674 [01:12<00:19, 3275.16 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  65%|████▌  | 117423/179674 [01:13<00:19, 3218.78 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  66%|████▌  | 117752/179674 [01:13<00:19, 3194.70 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  66%|████▌  | 118074/179674 [01:13<00:19, 3146.01 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  66%|████▌  | 118391/179674 [01:13<00:19, 3080.02 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  66%|████▋  | 118730/179674 [01:13<00:19, 3151.02 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  66%|████▋  | 119058/179674 [01:13<00:19, 3175.93 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  66%|████▋  | 119378/179674 [01:13<00:19, 3097.05 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  67%|████▋  | 119693/179674 [01:13<00:20, 2993.45 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  67%|████▋  | 119994/179674 [01:13<00:21, 2826.00 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  67%|████▋  | 120317/179674 [01:14<00:20, 2925.42 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  67%|████▋  | 120652/179674 [01:14<00:19, 3023.19 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  67%|████▋  | 120957/179674 [01:14<00:19, 3024.36 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  67%|████▋  | 121266/179674 [01:14<00:21, 2739.75 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  68%|████▋  | 121588/179674 [01:14<00:20, 2867.39 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  68%|████▋  | 121883/179674 [01:14<00:20, 2831.45 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  68%|████▊  | 122190/179674 [01:14<00:20, 2874.06 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  68%|████▊  | 122482/179674 [01:14<00:20, 2846.62 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  68%|████▊  | 122781/179674 [01:14<00:19, 2876.10 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  68%|████▊  | 123072/179674 [01:14<00:20, 2821.79 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  69%|████▊  | 123381/179674 [01:15<00:19, 2864.22 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  69%|████▊  | 123700/179674 [01:15<00:18, 2956.05 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  69%|████▊  | 124052/179674 [01:15<00:17, 3112.82 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  69%|████▊  | 124436/179674 [01:15<00:16, 3323.03 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  69%|████▊  | 124795/179674 [01:15<00:16, 3399.12 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  70%|████▉  | 125138/179674 [01:15<00:16, 3219.49 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  70%|████▉  | 125504/179674 [01:15<00:16, 3345.36 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  70%|████▉  | 125848/179674 [01:15<00:16, 3309.99 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  70%|████▉  | 126185/179674 [01:15<00:17, 3060.99 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  70%|████▉  | 126498/179674 [01:16<00:18, 2888.78 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  71%|████▉  | 126794/179674 [01:16<00:18, 2784.84 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  71%|████▉  | 127077/179674 [01:16<00:19, 2711.66 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  71%|████▉  | 127352/179674 [01:16<00:19, 2631.15 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  71%|████▉  | 127620/179674 [01:16<00:19, 2622.97 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  71%|████▉  | 127887/179674 [01:16<00:20, 2571.61 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  71%|████▉  | 128148/179674 [01:16<00:20, 2524.10 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  71%|█████  | 128402/179674 [01:16<00:20, 2453.70 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  72%|��████  | 128648/179674 [01:16<00:20, 2445.66 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  72%|█████  | 128894/179674 [01:17<00:21, 2355.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  72%|█████  | 129182/179674 [01:17<00:20, 2491.25 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  72%|█████  | 129473/179674 [01:17<00:19, 2547.63 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  72%|█████  | 129807/179674 [01:17<00:18, 2761.71 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  72%|█████  | 130141/179674 [01:17<00:16, 2926.49 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  73%|█████  | 130452/179674 [01:17<00:16, 2970.01 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  73%|█████  | 130754/179674 [01:17<00:16, 2906.30 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  73%|█████  | 131052/179674 [01:17<00:16, 2908.47 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  73%|█████  | 131361/179674 [01:17<00:16, 2959.98 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  73%|█████▏ | 131669/179674 [01:17<00:16, 2982.67 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  73%|█████▏ | 131973/179674 [01:18<00:16, 2891.10 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  74%|█████▏ | 132265/179674 [01:18<00:16, 2816.09 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  74%|█████▏ | 132550/179674 [01:18<00:17, 2739.34 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  74%|█████▏ | 132826/179674 [01:18<00:17, 2711.75 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  74%|█████▏ | 133126/179674 [01:18<00:16, 2770.79 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  74%|█████▏ | 133415/179674 [01:18<00:16, 2803.66 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  74%|█████▏ | 133696/179674 [01:18<00:17, 2676.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  75%|█████▏ | 133965/179674 [01:18<00:17, 2635.75 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  75%|█████▏ | 134231/179674 [01:18<00:17, 2538.19 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  75%|█████▏ | 134489/179674 [01:19<00:18, 2465.72 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  75%|█████▏ | 134739/179674 [01:19<00:18, 2399.22 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  75%|█████▎ | 134986/179674 [01:19<00:18, 2390.89 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  75%|█████▎ | 135229/179674 [01:19<00:18, 2379.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  75%|█████▎ | 135472/179674 [01:19<00:18, 2376.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  76%|█████▎ | 135726/179674 [01:19<00:18, 2382.19 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  76%|█████▎ | 135973/179674 [01:19<00:18, 2387.70 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  76%|█████▎ | 136212/179674 [01:19<00:18, 2376.74 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  76%|█████▎ | 136480/179674 [01:19<00:17, 2420.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  76%|█████▎ | 136745/179674 [01:20<00:17, 2472.43 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  76%|█████▎ | 137016/179674 [01:20<00:16, 2521.92 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  76%|█████▎ | 137271/179674 [01:20<00:16, 2515.66 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  77%|█████▎ | 137565/179674 [01:20<00:16, 2593.19 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  77%|█████▎ | 137832/179674 [01:20<00:16, 2603.33 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  77%|█████▍ | 138094/179674 [01:20<00:16, 2508.20 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  77%|█████▍ | 138387/179674 [01:20<00:15, 2625.35 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  77%|█████▍ | 138655/179674 [01:20<00:16, 2528.50 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  77%|█████▍ | 138912/179674 [01:20<00:16, 2485.93 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  77%|█████▍ | 139162/179674 [01:20<00:17, 2358.38 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  78%|█████▍ | 139438/179674 [01:21<00:16, 2467.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  78%|█████▍ | 139693/179674 [01:21<00:16, 2485.85 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  78%|█████▍ | 139949/179674 [01:21<00:16, 2440.48 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  78%|█████▍ | 140227/179674 [01:21<00:15, 2529.60 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  78%|█████▍ | 140486/179674 [01:21<00:15, 2498.69 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  78%|█████▍ | 140751/179674 [01:21<00:15, 2533.47 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  78%|█████▍ | 141006/179674 [01:21<00:15, 2498.76 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  79%|█████▌ | 141266/179674 [01:21<00:15, 2524.35 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  79%|█████▌ | 141519/179674 [01:21<00:15, 2519.27 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  79%|█████▌ | 141772/179674 [01:22<00:16, 2342.02 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  79%|█████▌ | 142009/179674 [01:22<00:16, 2297.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  79%|█████▌ | 142241/179674 [01:22<00:16, 2222.71 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  79%|█████▌ | 142476/179674 [01:22<00:16, 2249.02 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  79%|█████▌ | 142761/179674 [01:22<00:15, 2401.32 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  80%|█████▌ | 143092/179674 [01:22<00:13, 2655.85 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  80%|█████▌ | 143363/179674 [01:22<00:13, 2647.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  80%|█████▌ | 143632/179674 [01:22<00:14, 2554.78 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  80%|█████▌ | 143889/179674 [01:22<00:14, 2469.30 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  80%|█████▌ | 144140/179674 [01:23<00:14, 2436.45 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  80%|█████▋ | 144389/179674 [01:23<00:14, 2367.38 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  80%|█████▋ | 144629/179674 [01:23<00:15, 2304.56 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  81%|█████▋ | 144862/179674 [01:23<00:15, 2308.43 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  81%|█████▋ | 145100/179674 [01:23<00:14, 2325.93 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  81%|█████▋ | 145353/179674 [01:23<00:14, 2364.70 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  81%|█████▋ | 145622/179674 [01:23<00:13, 2453.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  81%|█████▋ | 145871/179674 [01:23<00:13, 2427.53 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  81%|█████▋ | 146144/179674 [01:23<00:13, 2515.30 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  81%|█████▋ | 146400/179674 [01:23<00:13, 2518.38 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  82%|█████▋ | 146653/179674 [01:24<00:13, 2368.62 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  82%|█████▋ | 146898/179674 [01:24<00:13, 2380.20 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  82%|█████▋ | 147143/179674 [01:24<00:13, 2333.35 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  82%|█████▋ | 147382/179674 [01:24<00:14, 2306.40 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  82%|█████▊ | 147614/179674 [01:24<00:14, 2244.87 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  82%|█████▊ | 147841/179674 [01:24<00:15, 2062.72 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  82%|█████▊ | 148131/179674 [01:24<00:13, 2267.62 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  83%|█████▊ | 148362/179674 [01:24<00:13, 2274.29 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  83%|█████▊ | 148615/179674 [01:24<00:13, 2343.40 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  83%|█████▊ | 148854/179674 [01:25<00:13, 2342.37 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  83%|█████▊ | 149096/179674 [01:25<00:12, 2362.44 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  83%|█████▊ | 149389/179674 [01:25<00:12, 2519.61 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  83%|█████▊ | 149649/179674 [01:25<00:11, 2537.92 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  83%|█████▊ | 149906/179674 [01:25<00:12, 2377.88 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  84%|█████▊ | 150148/179674 [01:25<00:13, 2214.37 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  84%|█████▊ | 150373/179674 [01:25<00:13, 2107.34 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  84%|█████▊ | 150588/179674 [01:25<00:14, 1998.70 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  84%|█████▉ | 150809/179674 [01:25<00:14, 2046.86 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  84%|█████▉ | 151016/179674 [01:26<00:14, 1955.04 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  84%|█████▉ | 151225/179674 [01:26<00:14, 1981.56 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  84%|█████▉ | 151435/179674 [01:26<00:14, 2004.13 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  84%|█████▉ | 151696/179674 [01:26<00:12, 2161.28 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  85%|█████▉ | 151914/179674 [01:26<00:13, 2122.55 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  85%|█████▉ | 152132/179674 [01:26<00:13, 2086.70 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  85%|█████▉ | 152347/179674 [01:26<00:13, 2024.20 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  85%|█████▉ | 152556/179674 [01:26<00:13, 1996.92 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  85%|█████▉ | 152769/179674 [01:26<00:13, 2034.26 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  85%|█████▉ | 153037/179674 [01:26<00:12, 2213.47 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  85%|█████▉ | 153264/179674 [01:27<00:11, 2224.96 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  85%|█████▉ | 153490/179674 [01:27<00:12, 2122.27 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  86%|█████▉ | 153706/179674 [01:27<00:12, 2094.06 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  86%|█████▉ | 153919/179674 [01:27<00:12, 2058.16 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  86%|██████ | 154130/179674 [01:27<00:12, 2016.65 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  86%|██████ | 154333/179674 [01:27<00:13, 1948.64 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  86%|██████ | 154535/179674 [01:27<00:12, 1964.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  86%|██████ | 154732/179674 [01:27<00:12, 1930.93 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  86%|██████ | 154930/179674 [01:27<00:12, 1915.45 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  86%|██████ | 155122/179674 [01:28<00:13, 1860.51 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  86%|██████ | 155341/179674 [01:28<00:12, 1952.30 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  87%|██████ | 155541/179674 [01:28<00:12, 1954.01 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  87%|██████ | 155737/179674 [01:28<00:12, 1887.03 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  87%|██████ | 155930/179674 [01:28<00:12, 1882.02 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  87%|██████ | 156132/179674 [01:28<00:12, 1919.39 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  87%|██████ | 156370/179674 [01:28<00:11, 2021.23 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  87%|██████ | 156590/179674 [01:28<00:11, 2060.37 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  87%|██████ | 156828/179674 [01:28<00:10, 2142.50 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  87%|██████ | 157112/179674 [01:29<00:09, 2342.60 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  88%|██████▏| 157350/179674 [01:29<00:09, 2306.94 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  88%|██████▏| 157586/179674 [01:29<00:10, 2183.93 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  88%|██████▏| 157811/179674 [01:29<00:10, 2099.76 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  88%|██████▏| 158027/179674 [01:29<00:10, 1980.43 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  88%|██████▏| 158238/179674 [01:29<00:10, 2001.89 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  88%|██████▏| 158440/179674 [01:29<00:10, 1989.45 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  88%|██████▏| 158649/179674 [01:29<00:11, 1828.09 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  88%|██████▏| 158967/179674 [01:29<00:09, 2183.33 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  89%|██████▏| 159193/179674 [01:30<00:09, 2141.39 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  89%|██████▏| 159417/179674 [01:30<00:09, 2164.66 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  89%|██████▏| 159639/179674 [01:30<00:09, 2088.00 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  89%|██████▏| 159852/179674 [01:30<00:09, 2091.31 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  89%|██████▏| 160085/179674 [01:30<00:09, 2138.45 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  89%|██████▏| 160319/179674 [01:30<00:08, 2184.87 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  89%|██████▎| 160564/179674 [01:30<00:08, 2229.37 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  89%|██████▎| 160789/179674 [01:30<00:09, 1999.47 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  90%|██████▎| 160994/179674 [01:30<00:09, 1933.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  90%|██████▎| 161333/179674 [01:31<00:07, 2324.18 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  90%|██████▎| 161574/179674 [01:31<00:09, 1952.89 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  90%|██████▎| 161785/179674 [01:31<00:09, 1851.56 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  90%|██████▎| 161983/179674 [01:31<00:10, 1754.51 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  90%|██████▎| 162168/179674 [01:31<00:11, 1588.74 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  90%|██████▎| 162336/179674 [01:31<00:11, 1511.23 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  90%|██████▎| 162495/179674 [01:31<00:11, 1467.79 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  91%|██████▎| 162645/179674 [01:31<00:12, 1410.33 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  91%|██████▎| 162789/179674 [01:32<00:12, 1348.69 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  91%|██████▎| 162925/179674 [01:32<00:13, 1228.27 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  91%|██████▎| 163159/179674 [01:32<00:11, 1427.77 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  91%|██████▎| 163364/179674 [01:32<00:10, 1572.69 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  91%|██████▎| 163529/179674 [01:32<00:10, 1521.58 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  91%|██████▍| 163687/179674 [01:32<00:10, 1478.22 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  91%|██████▍| 163840/179674 [01:32<00:10, 1490.86 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  91%|██████▍| 164015/179674 [01:32<00:10, 1560.82 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  91%|██████▍| 164206/179674 [01:32<00:09, 1626.10 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  91%|██████▍| 164393/179674 [01:33<00:09, 1674.21 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  92%|██████▍| 164608/179674 [01:33<00:08, 1805.28 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  92%|██████▍| 164791/179674 [01:33<00:08, 1761.96 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  92%|██████▍| 164970/179674 [01:33<00:09, 1631.67 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  92%|██████▍| 165137/179674 [01:33<00:09, 1512.56 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  92%|██████▍| 165295/179674 [01:33<00:09, 1479.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  92%|██████▍| 165445/179674 [01:33<00:09, 1462.49 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  92%|██████▍| 165637/179674 [01:33<00:08, 1581.34 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  92%|██████▍| 165799/179674 [01:33<00:08, 1580.32 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  92%|██████▍| 165975/179674 [01:34<00:08, 1619.73 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  92%|██████▍| 166138/179674 [01:34<00:08, 1555.76 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  93%|██████▍| 166295/179674 [01:34<00:08, 1531.37 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  93%|██████▍| 166451/179674 [01:34<00:09, 1452.63 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  93%|██████▍| 166606/179674 [01:34<00:08, 1474.99 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  93%|██████▍| 166761/179674 [01:34<00:08, 1479.03 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  93%|██████▌| 166913/179674 [01:34<00:08, 1488.08 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  93%|██████▌| 167063/179674 [01:34<00:09, 1397.85 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  93%|██████▌| 167211/179674 [01:34<00:08, 1403.39 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  93%|██████▌| 167355/179674 [01:35<00:09, 1367.25 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  93%|██████▌| 167496/179674 [01:35<00:09, 1351.92 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  93%|██████▌| 167632/179674 [01:35<00:08, 1348.77 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  93%|██████▌| 167768/179674 [01:35<00:08, 1335.67 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  93%|██████▌| 167904/179674 [01:35<00:09, 1292.58 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  94%|██████▌| 168037/179674 [01:35<00:09, 1265.68 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  94%|██████▌| 168164/179674 [01:35<00:09, 1182.97 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  94%|██████▌| 168293/179674 [01:35<00:09, 1193.49 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  94%|██████▌| 168415/179674 [01:35<00:09, 1172.80 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  94%|██████▌| 168533/179674 [01:36<00:09, 1170.77 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  94%|██████▌| 168653/179674 [01:36<00:09, 1156.93 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  94%|██████▌| 168770/179674 [01:36<00:09, 1155.62 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  94%|██████▌| 168893/179674 [01:36<00:09, 1097.00 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  94%|██████▌| 169042/179674 [01:36<00:08, 1196.77 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  94%|██████▌| 169168/179674 [01:36<00:08, 1210.01 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  94%|██████▌| 169292/179674 [01:36<00:08, 1179.21 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  94%|██████▌| 169424/179674 [01:36<00:08, 1192.08 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  94%|██████▌| 169544/179674 [01:36<00:08, 1181.77 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  94%|██████▌| 169666/179674 [01:37<00:08, 1150.87 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  94%|██████▌| 169783/179674 [01:37<00:08, 1131.03 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  95%|██████▌| 169897/179674 [01:37<00:08, 1121.36 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  95%|██████▌| 170011/179674 [01:37<00:09, 1066.32 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  95%|██████▋| 170131/179674 [01:37<00:08, 1092.90 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  95%|██████▋| 170309/179674 [01:37<00:07, 1263.75 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  95%|██████▋| 170439/179674 [01:37<00:07, 1246.71 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  95%|██████▋| 170568/179674 [01:37<00:07, 1184.69 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  95%|██████▋| 170688/179674 [01:37<00:07, 1167.28 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  95%|██████▋| 170807/179674 [01:38<00:08, 1105.80 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  95%|██████▋| 170919/179674 [01:38<00:08, 1073.16 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  95%|██████▋| 171028/179674 [01:38<00:08, 1067.86 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  95%|██████▋| 171137/179674 [01:38<00:08, 1036.17 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  95%|██████▋| 171243/179674 [01:38<00:08, 1026.31 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  95%|██████▋| 171347/179674 [01:38<00:08, 1018.76 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  95%|██████▋| 171452/179674 [01:38<00:08, 1016.11 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  95%|███████▋| 171554/179674 [01:38<00:08, 982.82 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  96%|███████▋| 171654/179674 [01:38<00:09, 889.24 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  96%|███████▋| 171762/179674 [01:39<00:08, 934.96 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  96%|███████▋| 171858/179674 [01:39<00:08, 899.74 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  96%|███████▋| 171956/179674 [01:39<00:08, 920.79 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  96%|███████▋| 172050/179674 [01:39<00:08, 898.88 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  96%|███████▋| 172143/179674 [01:39<00:08, 894.47 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  96%|███████▋| 172235/179674 [01:39<00:08, 866.48 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  96%|███████▋| 172324/179674 [01:39<00:08, 835.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  96%|███████▋| 172412/179674 [01:39<00:08, 823.69 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  96%|███████▋| 172503/179674 [01:39<00:08, 820.81 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  96%|███████▋| 172595/179674 [01:40<00:09, 775.73 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  96%|███████▋| 172704/179674 [01:40<00:08, 856.24 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  96%|███████▋| 172796/179674 [01:40<00:07, 859.88 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  96%|███████▋| 172930/179674 [01:40<00:06, 971.96 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  96%|██████▋| 173067/179674 [01:40<00:06, 1077.56 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  96%|██████▋| 173179/179674 [01:40<00:06, 1012.38 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  96%|███████▋| 173285/179674 [01:40<00:06, 963.73 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▋| 173386/179674 [01:40<00:06, 955.64 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▋| 173485/179674 [01:40<00:06, 941.50 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▋| 173581/179674 [01:41<00:06, 927.70 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▋| 173678/179674 [01:41<00:06, 902.54 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▋| 173772/179674 [01:41<00:06, 903.00 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▋| 173866/179674 [01:41<00:06, 912.40 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▋| 173961/179674 [01:41<00:06, 895.46 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▋| 174054/179674 [01:41<00:06, 886.33 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▊| 174150/179674 [01:41<00:06, 902.59 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▊| 174241/179674 [01:41<00:06, 887.82 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▊| 174340/179674 [01:41<00:05, 912.57 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▊| 174439/179674 [01:41<00:05, 934.52 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▊| 174534/179674 [01:42<00:05, 870.79 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▊| 174637/179674 [01:42<00:05, 909.58 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▊| 174731/179674 [01:42<00:05, 908.57 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▊| 174825/179674 [01:42<00:05, 911.54 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▊| 174924/179674 [01:42<00:05, 918.14 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▊| 175019/179674 [01:42<00:05, 870.52 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  97%|███████▊| 175107/179674 [01:42<00:05, 857.24 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 175197/179674 [01:42<00:05, 839.87 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 175285/179674 [01:42<00:05, 849.04 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 175374/179674 [01:43<00:05, 841.36 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 175461/179674 [01:43<00:05, 799.70 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 175545/179674 [01:43<00:05, 776.41 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 175624/179674 [01:43<00:05, 775.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 175703/179674 [01:43<00:05, 759.94 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 175781/179674 [01:43<00:05, 758.53 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 175857/179674 [01:43<00:05, 738.46 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 175934/179674 [01:43<00:05, 725.42 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 176010/179674 [01:43<00:05, 705.41 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 176082/179674 [01:44<00:05, 696.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 176156/179674 [01:44<00:05, 693.96 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 176284/179674 [01:44<00:04, 800.80 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 176397/179674 [01:44<00:03, 885.74 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 176489/179674 [01:44<00:03, 819.14 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 176575/179674 [01:44<00:03, 782.91 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 176655/179674 [01:44<00:04, 745.10 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 176733/179674 [01:44<00:03, 751.45 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▊| 176855/179674 [01:44<00:03, 878.85 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  98%|███████▉| 176963/179674 [01:45<00:02, 917.08 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 177056/179674 [01:45<00:03, 829.20 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 177143/179674 [01:45<00:03, 767.20 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 177222/179674 [01:45<00:03, 741.56 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 177298/179674 [01:45<00:03, 709.22 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 177370/179674 [01:45<00:03, 678.17 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 177440/179674 [01:45<00:03, 651.54 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 177508/179674 [01:45<00:03, 625.12 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 177577/179674 [01:46<00:03, 614.50 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 177639/179674 [01:46<00:03, 598.18 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 177701/179674 [01:46<00:03, 602.64 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 177763/179674 [01:46<00:03, 584.34 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 177824/179674 [01:46<00:03, 502.74 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 177877/179674 [01:46<00:03, 471.42 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 177927/179674 [01:46<00:03, 458.59 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 177981/179674 [01:46<00:03, 460.05 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 178030/179674 [01:47<00:03, 458.37 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 178079/179674 [01:47<00:03, 457.31 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 178128/179674 [01:47<00:03, 438.96 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 178175/179674 [01:47<00:03, 436.67 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 178220/179674 [01:47<00:03, 388.43 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 178279/179674 [01:47<00:03, 426.86 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 178335/179674 [01:47<00:02, 448.10 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 178382/179674 [01:47<00:02, 439.99 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 178428/179674 [01:47<00:02, 419.91 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 178475/179674 [01:48<00:02, 431.06 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 178522/179674 [01:48<00:02, 418.43 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 178569/179674 [01:48<00:02, 429.47 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 178620/179674 [01:48<00:02, 441.22 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 178666/179674 [01:48<00:02, 430.77 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 178713/179674 [01:48<00:02, 433.15 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64):  99%|███████▉| 178758/179674 [01:48<00:02, 426.97 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 178803/179674 [01:48<00:02, 403.09 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 178845/179674 [01:49<00:02, 378.47 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 178887/179674 [01:49<00:02, 387.64 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 178927/179674 [01:49<00:01, 373.96 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 178965/179674 [01:49<00:02, 350.85 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179003/179674 [01:49<00:02, 335.31 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179040/179674 [01:49<00:01, 323.59 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179073/179674 [01:49<00:02, 296.65 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179104/179674 [01:49<00:02, 283.50 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179133/179674 [01:49<00:01, 271.64 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179163/179674 [01:50<00:01, 272.35 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179194/179674 [01:50<00:01, 264.92 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179224/179674 [01:50<00:01, 255.14 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179251/179674 [01:50<00:01, 244.48 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179276/179674 [01:50<00:01, 243.88 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179303/179674 [01:50<00:01, 218.57 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179326/179674 [01:50<00:01, 204.97 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179350/179674 [01:50<00:01, 191.99 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179372/179674 [01:51<00:01, 198.41 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179394/179674 [01:51<00:01, 183.13 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179414/179674 [01:51<00:01, 171.22 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179433/179674 [01:51<00:01, 143.90 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179452/179674 [01:51<00:01, 144.38 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179469/179674 [01:51<00:01, 127.40 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179483/179674 [01:52<00:01, 125.27 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179498/179674 [01:52<00:01, 126.31 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179513/179674 [01:52<00:01, 123.09 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179529/179674 [01:52<00:01, 122.60 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179545/179674 [01:52<00:01, 113.57 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179560/179674 [01:52<00:01, 113.88 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179578/179674 [01:52<00:00, 120.63 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|███████▉| 179593/179674 [01:53<00:00, 102.73 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|████████▉| 179604/179674 [01:53<00:00, 88.90 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|████████▉| 179616/179674 [01:53<00:00, 79.82 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|████████▉| 179628/179674 [01:53<00:00, 73.79 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|████████▉| 179636/179674 [01:53<00:00, 70.54 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|████████▉| 179647/179674 [01:53<00:00, 67.11 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|████████▉| 179657/179674 [01:54<00:00, 62.91 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|████████▉| 179664/179674 [01:54<00:00, 62.17 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Map (num_proc=64): 100%|████████▉| 179671/179674 [01:54<00:00, 61.54 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "                                                                                \r"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):   0%|                   | 0/179674 [00:00<?, ? examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):   1%|       | 1000/179674 [00:01<05:12, 570.94 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):   1%|       | 2000/179674 [00:02<03:01, 980.82 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):   2%|      | 3000/179674 [00:02<01:59, 1477.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):   2%|▏     | 4000/179674 [00:02<01:19, 2211.87 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):   3%|▏     | 5000/179674 [00:02<01:02, 2782.15 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):   3%|▏     | 6000/179674 [00:03<00:58, 2976.76 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):   4%|▏     | 7000/179674 [00:03<00:45, 3766.17 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):   5%|▎     | 9000/179674 [00:03<00:27, 6133.77 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):   6%|▎    | 10000/179674 [00:03<00:26, 6349.75 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):   6%|▎    | 11000/179674 [00:03<00:31, 5417.96 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):   7%|▎    | 12000/179674 [00:03<00:27, 6165.71 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):   7%|▎    | 13000/179674 [00:04<00:26, 6263.21 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):   9%|▍    | 16000/179674 [00:04<00:18, 8957.13 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  10%|▍   | 18000/179674 [00:04<00:15, 10332.55 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  11%|▌    | 20000/179674 [00:05<00:28, 5597.62 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  12%|▌    | 22000/179674 [00:05<00:21, 7271.46 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  13%|▋    | 24000/179674 [00:05<00:18, 8264.27 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  14%|▋    | 25807/179674 [00:05<00:18, 8375.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  17%|▋   | 29807/179674 [00:05<00:11, 12551.90 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  18%|▋   | 31807/179674 [00:05<00:11, 12598.71 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  19%|▉    | 34614/179674 [00:06<00:14, 9750.16 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  21%|▊   | 37614/179674 [00:06<00:12, 11155.30 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  23%|▉   | 41614/179674 [00:06<00:09, 15107.09 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  25%|▉   | 44228/179674 [00:07<00:13, 10276.71 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  26%|█▎   | 46228/179674 [00:07<00:14, 9078.58 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  27%|█   | 49228/179674 [00:07<00:12, 10481.31 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  28%|█▏  | 51035/179674 [00:07<00:11, 10930.20 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  29%|█▏  | 52842/179674 [00:07<00:10, 12001.40 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  31%|█▏  | 55842/179674 [00:08<00:11, 11103.48 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  32%|█▌   | 57842/179674 [00:08<00:13, 8837.27 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  33%|█▋   | 59842/179674 [00:08<00:12, 9957.10 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  35%|█▍  | 62263/179674 [00:08<00:10, 11499.51 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  36%|█▍  | 65263/179674 [00:08<00:08, 12942.50 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  38%|█▌  | 68877/179674 [00:09<00:06, 15876.65 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  40%|█▌  | 71877/179674 [00:09<00:06, 15801.43 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  41%|█▋  | 73877/179674 [00:09<00:06, 15856.85 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  42%|█▋  | 75877/179674 [00:09<00:08, 11825.65 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  43%|█▋  | 77877/179674 [00:09<00:09, 10927.46 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  44%|█▊  | 79877/179674 [00:10<00:08, 11439.21 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  45%|██▎  | 81685/179674 [00:10<00:09, 9908.56 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  47%|█▉  | 84492/179674 [00:10<00:07, 12237.99 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  48%|██▍  | 86300/179674 [00:10<00:10, 8506.15 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  51%|██  | 90915/179674 [00:10<00:06, 13468.78 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  52%|██  | 92915/179674 [00:11<00:06, 13326.59 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  53%|██  | 94915/179674 [00:11<00:06, 13160.02 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  54%|██▋  | 96723/179674 [00:11<00:08, 9515.22 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  55%|██▋  | 98723/179674 [00:11<00:09, 8454.59 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  56%|██▏ | 100530/179674 [00:12<00:08, 9225.51 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  58%|██▎ | 103530/179674 [00:12<00:08, 9384.70 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  60%|█▊ | 107338/179674 [00:12<00:05, 13210.90 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  61%|██▍ | 109145/179674 [00:12<00:08, 8734.70 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  62%|██▍ | 111145/179674 [00:13<00:09, 7306.67 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  63%|██▌ | 113145/179674 [00:13<00:08, 7843.82 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  64%|██▌ | 115760/179674 [00:13<00:06, 9579.58 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  65%|██▌ | 117376/179674 [00:14<00:07, 7908.23 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  66%|██▋ | 119184/179674 [00:14<00:06, 9004.77 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  67%|██▋ | 120992/179674 [00:14<00:06, 9083.33 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  68%|██ | 122992/179674 [00:14<00:05, 10063.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  70%|██▊ | 124992/179674 [00:14<00:07, 7291.07 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  70%|██▊ | 125992/179674 [00:15<00:08, 6169.76 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  71%|██▊ | 126799/179674 [00:15<00:08, 6246.97 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  73%|██▉ | 130415/179674 [00:15<00:05, 9682.94 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  74%|██▉ | 132223/179674 [00:15<00:04, 9948.95 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  75%|██▉ | 134223/179674 [00:16<00:06, 6772.34 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  76%|███ | 136223/179674 [00:16<00:06, 6933.66 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  77%|███ | 137839/179674 [00:16<00:05, 7069.69 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  78%|███ | 139647/179674 [00:16<00:05, 7466.50 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  79%|███▏| 141454/179674 [00:17<00:05, 6713.10 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  80%|███▏| 143262/179674 [00:17<00:05, 6916.16 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  80%|███▏| 144070/179674 [00:17<00:06, 5708.83 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  81%|███▎| 146070/179674 [00:17<00:04, 7657.20 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  82%|███▎| 147686/179674 [00:18<00:03, 8747.32 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  83%|███▎| 149494/179674 [00:18<00:05, 5131.92 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  84%|███▎| 150494/179674 [00:18<00:05, 5340.74 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  84%|███▎| 151302/179674 [00:18<00:05, 5545.54 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  86%|███▍| 153918/179674 [00:19<00:04, 5409.94 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  86%|███▍| 154918/179674 [00:19<00:05, 4830.28 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  87%|███▍| 155726/179674 [00:19<00:04, 5173.99 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  88%|███▌| 158534/179674 [00:20<00:02, 7468.66 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  89%|███▌| 159534/179674 [00:20<00:02, 7044.47 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  90%|███▌| 162148/179674 [00:20<00:02, 7346.72 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  91%|███▋| 163955/179674 [00:20<00:01, 8309.40 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  92%|███▋| 165569/179674 [00:21<00:02, 5779.65 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  94%|███▋| 168376/179674 [00:22<00:02, 4127.37 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  94%|███▊| 169183/179674 [00:22<00:02, 3907.51 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  95%|███▊| 169990/179674 [00:22<00:02, 4210.00 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  95%|███▊| 170797/179674 [00:22<00:02, 4265.06 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  96%|███▊| 171604/179674 [00:23<00:02, 3645.43 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  96%|███▊| 172411/179674 [00:24<00:03, 2033.18 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  96%|███▊| 173218/179674 [00:24<00:03, 1860.06 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  97%|███▊| 174025/179674 [00:25<00:03, 1817.46 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  97%|███▉| 174832/179674 [00:25<00:02, 2117.56 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  98%|███▉| 175639/179674 [00:25<00:01, 2059.56 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  98%|███▉| 176446/179674 [00:25<00:01, 2487.03 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64):  99%|███▉| 177253/179674 [00:26<00:00, 2801.46 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64): 100%|███▉| 178867/179674 [00:27<00:00, 1687.47 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Filter (num_proc=64): 100%|████| 179674/179674 [00:27<00:00, 2074.59 examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "                                                                                \r"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (0/5 shards):   0%|        | 0/123383 [00:00<?, ? examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (0/5 shards):   3%| | 4000/123383 [00:00<00:04, 29008.01 exam"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (0/5 shards):   6%| | 8000/123383 [00:00<00:03, 32464.08 exam"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (0/5 shards):  10%| | 12000/123383 [00:00<00:03, 34876.09 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (0/5 shards):  14%|▏| 17000/123383 [00:00<00:02, 37040.09 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (0/5 shards):  19%|▏| 23000/123383 [00:00<00:02, 38801.74 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (1/5 shards):  20%|▏| 24677/123383 [00:00<00:02, 38801.74 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (1/5 shards):  22%|▏| 27677/123383 [00:00<00:02, 38675.19 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (1/5 shards):  27%|▎| 33677/123383 [00:00<00:02, 40793.41 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (1/5 shards):  32%|▎| 39677/123383 [00:01<00:01, 42277.80 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (1/5 shards):  37%|▎| 45677/123383 [00:01<00:01, 43351.95 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (2/5 shards):  40%|▍| 49354/123383 [00:01<00:01, 43351.95 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (2/5 shards):  42%|▍| 52354/123383 [00:01<00:01, 43210.91 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (2/5 shards):  47%|▍| 58354/123383 [00:01<00:01, 44464.49 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (2/5 shards):  52%|▌| 64354/123383 [00:01<00:01, 45829.41 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (2/5 shards):  57%|▌| 70354/123383 [00:01<00:01, 46808.53 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (3/5 shards):  60%|▌| 74031/123383 [00:01<00:01, 46808.53 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (3/5 shards):  62%|▌| 77031/123383 [00:01<00:00, 46739.30 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (3/5 shards):  67%|▋| 83031/123383 [00:01<00:00, 47754.45 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (3/5 shards):  71%|▋| 88031/123383 [00:02<00:00, 45941.47 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (3/5 shards):  76%|▊| 94031/123383 [00:02<00:00, 47285.54 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (4/5 shards):  80%|▊| 98707/123383 [00:02<00:00, 47285.54 exa"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (4/5 shards):  82%|▊| 101707/123383 [00:02<00:00, 47391.46 ex"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (4/5 shards):  87%|▊| 107707/123383 [00:02<00:00, 48637.94 ex"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (4/5 shards):  92%|▉| 113707/123383 [00:02<00:00, 49594.84 ex"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (4/5 shards):  97%|▉| 119707/123383 [00:02<00:00, 50216.24 ex"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (5/5 shards): 100%|█| 123383/123383 [00:02<00:00, 50216.24 ex\r",
-      "                                                                                \r",
-      "\r",
-      "Saving the dataset (0/1 shards):   0%|           | 0/124 [00:00<?, ? examples/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Saving the dataset (1/1 shards): 100%|█| 124/124 [00:00<00:00, 7213.00 examples/\r",
-      "                                                                                \r"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "[rank: 0] Global seed set to 1010560597\r\n",
-      "initializing deepspeed distributed: GLOBAL_RANK: 0, MEMBER: 1/8\r\n",
-      "[2023-09-01 16:13:11,192] [WARNING] [comm.py:152:init_deepspeed_backend] NCCL backend in DeepSpeed not yet implemented\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Enabling DeepSpeed BF16.\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "LOCAL_RANK: 7 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
-      "LOCAL_RANK: 5 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
-      "LOCAL_RANK: 1 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
-      "LOCAL_RANK: 6 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
-      "LOCAL_RANK: 4 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
-      "LOCAL_RANK: 2 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
-      "LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
-      "#\r\n",
-      "# RWKV lighting_trainer.py important notes \r\n",
-      "# https://github.com/RWKV/RWKV-infctx-trainer \r\n",
-      "#\r\n",
-      "# - Ensure your host is not running cuda 12.0 (use either 11.8, or >=12.1), as this is known to have freeze issues\r\n",
-      "# - The terms used in wandb / the progress bar can be confusing, see the github README.md for beter clarifications\r\n",
-      "# - When resuming from checkpoint, the estimated time is inaccurate\r\n",
-      "#LOCAL_RANK: 3 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]\r\n",
-      "\r\n",
-      "\r\n",
-      "[RWKV.model] Configuring optimizer with\r\n",
-      "    - lr_init:  3.000e-04 (0.0003)\r\n",
-      "    - lr_final: 1.000e-04 (0.0001)\r\n",
-      "\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Detected CUDA files, patching ldflags\r\n",
-      "Emitting ninja build file /root/.cache/torch_extensions/py311_cu118/fused_adam/build.ninja...\r\n",
-      "Building extension module fused_adam...\r\n",
-      "Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)\r\n",
-      "ninja: no work to do.\r\n",
-      "Loading extension module fused_adam...\r\n",
-      "Time to load fused_adam op: 0.06868553161621094 seconds\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Loading extension module fused_adam...\r\n",
-      "Loading extension module fused_adam...\r\n",
-      "Loading extension module fused_adam...\r\n",
-      "Loading extension module fused_adam...\r\n",
-      "Loading extension module fused_adam...\r\n",
-      "Time to load fused_adam op: 0.10139918327331543 seconds\r\n",
-      "Time to load fused_adam op: 0.10129165649414062 seconds\r\n",
-      "Time to load fused_adam op: 0.10134243965148926 seconds\r\n",
-      "Time to load fused_adam op: 0.10137820243835449 seconds\r\n",
-      "Time to load fused_adam op: 0.10154056549072266 seconds\r\n",
-      "Loading extension module fused_adam...\r\n",
-      "Time to load fused_adam op: 0.10304617881774902 seconds\r\n",
-      "Loading extension module fused_adam...\r\n",
-      "Time to load fused_adam op: 0.10206794738769531 seconds\r\n",
-      "Loading `train_dataloader` to estimate number of stepping batches.\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "Emitting ninja build file /root/.cache/torch_extensions/py311_cu118/utils/build.ninja...\r\n",
-      "Building extension module utils...\r\n",
-      "Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "ninja: no work to do.\r\n",
-      "Loading extension module utils...\r\n",
-      "Time to load utils op: 0.07314562797546387 seconds\r\n",
-      "Loading extension module utils...\r\n",
-      "Time to load utils op: 0.10231685638427734 seconds\r\n",
-      "Loading extension module utils...\r\n",
-      "Time to load utils op: 0.10234475135803223 seconds\r\n",
-      "Loading extension module utils...\r\n",
-      "Loading extension module utils...\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Time to load utils op: 0.10240626335144043 seconds\r\n",
-      "Time to load utils op: 0.1036520004272461 seconds\r\n",
-      "Loading extension module utils...\r\n",
-      "Loading extension module utils...\r\n",
-      "Time to load utils op: 0.10248661041259766 seconds\r\n",
-      "Time to load utils op: 0.10213279724121094 seconds\r\n",
-      "Loading extension module utils...\r\n",
-      "Time to load utils op: 0.10242605209350586 seconds\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Rank: 1 partition count [8, 8] and sizes[(176584448, False), (384, False)] \r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Rank: 2 partition count [8, 8] and sizes[(176584448, False), (384, False)] \r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Rank: 5 partition count [8, 8] and sizes[(176584448, False), (384, False)] \r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Rank: 0 partition count [8, 8] and sizes[(176584448, False), (384, False)] \r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Rank: 3 partition count [8, 8] and sizes[(176584448, False), (384, False)] \r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Rank: 6 partition count [8, 8] and sizes[(176584448, False), (384, False)] \r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Rank: 7 partition count [8, 8] and sizes[(176584448, False), (384, False)] \r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Rank: 4 partition count [8, 8] and sizes[(176584448, False), (384, False)] \r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
-      "Loading extension module utils...\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "Time to load utils op: 0.0010843276977539062 seconds\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
-      "Loading extension module utils...\r\n",
-      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
-      "Loading extension module utils...\r\n",
-      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
-      "Loading extension module utils...\r\n",
-      "Time to load utils op: 0.0006914138793945312 seconds\r\n",
-      "Time to load utils op: 0.0006625652313232422 seconds\r\n",
-      "Time to load utils op: 0.0006780624389648438 seconds\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
-      "Loading extension module utils...\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "Time to load utils op: 0.0006792545318603516 seconds\r\n",
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
-      "Loading extension module utils...\r\n",
-      "Time to load utils op: 0.0006289482116699219 seconds\r\n",
-      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
-      "Loading extension module utils...\r\n",
-      "Time to load utils op: 0.0014362335205078125 seconds\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Using /root/.cache/torch_extensions/py311_cu118 as PyTorch extensions root...\r\n",
-      "No modifications detected for re-loaded extension module utils, skipping build step...\r\n",
-      "Loading extension module utils...\r\n",
-      "Time to load utils op: 0.0009057521820068359 seconds\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r\n",
-      "  | Name   | Type       | Params\r\n",
-      "--------------------------------------\r\n",
-      "0 | emb    | Embedding  | 51.5 M\r\n",
-      "1 | blocks | ModuleList | 1.3 B \r\n",
-      "2 | ln_out | LayerNorm  | 2.0 K \r\n",
-      "3 | head   | Linear     | 51.5 M\r\n",
-      "--------------------------------------\r\n",
-      "1.4 B     Trainable params\r\n",
-      "0         Non-trainable params\r\n",
-      "1.4 B     Total params\r\n",
-      "5,650.715 Total estimated model params size (MB)\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Training: 0it [00:00, ?it/s]\r",
-      "Training:   0%|                                       | 0/15423 [00:00<?, ?it/s]\r",
-      "Epoch 0:   0%|                                        | 0/15423 [00:00<?, ?it/s]"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%|                             | 1/15423 [00:12<53:36:45, 12.51s/it]\r",
-      "Epoch 0:   0%| | 1/15423 [00:12<53:37:01, 12.52s/it, v_num=ufwn, train/loss=6.41"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 2/15423 [00:16<35:56:33,  8.39s/it, v_num=ufwn, train/loss=6.41\r",
-      "Epoch 0:   0%| | 2/15423 [00:16<35:56:39,  8.39s/it, v_num=ufwn, train/loss=6.47"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 3/15423 [00:19<28:03:12,  6.55s/it, v_num=ufwn, train/loss=6.47\r",
-      "Epoch 0:   0%| | 3/15423 [00:19<28:03:15,  6.55s/it, v_num=ufwn, train/loss=0.04"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 4/15423 [00:23<25:04:56,  5.86s/it, v_num=ufwn, train/loss=0.04\r",
-      "Epoch 0:   0%| | 4/15423 [00:23<25:04:59,  5.86s/it, v_num=ufwn, train/loss=5.03"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 5/15423 [00:25<21:42:04,  5.07s/it, v_num=ufwn, train/loss=5.03\r",
-      "Epoch 0:   0%| | 5/15423 [00:25<21:42:07,  5.07s/it, v_num=ufwn, train/loss=0.05"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 6/15423 [00:29<21:20:00,  4.98s/it, v_num=ufwn, train/loss=0.05\r",
-      "Epoch 0:   0%| | 6/15423 [00:29<21:20:02,  4.98s/it, v_num=ufwn, train/loss=6.22"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 7/15423 [00:32<19:36:59,  4.58s/it, v_num=ufwn, train/loss=6.22\r",
-      "Epoch 0:   0%| | 7/15423 [00:32<19:37:00,  4.58s/it, v_num=ufwn, train/loss=0.11"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 8/15423 [00:35<18:53:32,  4.41s/it, v_num=ufwn, train/loss=0.11\r",
-      "Epoch 0:   0%| | 8/15423 [00:35<18:53:33,  4.41s/it, v_num=ufwn, train/loss=3.66"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 9/15423 [00:39<18:49:42,  4.40s/it, v_num=ufwn, train/loss=3.66\r",
-      "Epoch 0:   0%| | 9/15423 [00:39<18:49:44,  4.40s/it, v_num=ufwn, train/loss=6.34"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 10/15423 [00:44<18:51:54,  4.41s/it, v_num=ufwn, train/loss=6.3\r",
-      "Epoch 0:   0%| | 10/15423 [00:44<18:51:55,  4.41s/it, v_num=ufwn, train/loss=5.6"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 11/15423 [00:48<18:47:56,  4.39s/it, v_num=ufwn, train/loss=5.6\r",
-      "Epoch 0:   0%| | 11/15423 [00:48<18:47:57,  4.39s/it, v_num=ufwn, train/loss=6.4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 12/15423 [00:52<18:45:08,  4.38s/it, v_num=ufwn, train/loss=6.4\r",
-      "Epoch 0:   0%| | 12/15423 [00:52<18:45:09,  4.38s/it, v_num=ufwn, train/loss=7.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 13/15423 [00:57<18:57:59,  4.43s/it, v_num=ufwn, train/loss=7.5\r",
-      "Epoch 0:   0%| | 13/15423 [00:57<18:58:00,  4.43s/it, v_num=ufwn, train/loss=6.4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 14/15423 [01:01<18:45:51,  4.38s/it, v_num=ufwn, train/loss=6.4\r",
-      "Epoch 0:   0%| | 14/15423 [01:01<18:45:52,  4.38s/it, v_num=ufwn, train/loss=6.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 15/15423 [01:05<18:43:37,  4.38s/it, v_num=ufwn, train/loss=6.0\r",
-      "Epoch 0:   0%| | 15/15423 [01:05<18:43:38,  4.38s/it, v_num=ufwn, train/loss=7.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 16/15423 [01:09<18:41:37,  4.37s/it, v_num=ufwn, train/loss=7.0\r",
-      "Epoch 0:   0%| | 16/15423 [01:09<18:41:38,  4.37s/it, v_num=ufwn, train/loss=7.7"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 17/15423 [01:11<18:01:08,  4.21s/it, v_num=ufwn, train/loss=7.7\r",
-      "Epoch 0:   0%| | 17/15423 [01:11<18:01:09,  4.21s/it, v_num=ufwn, train/loss=0.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 18/15423 [01:14<17:47:06,  4.16s/it, v_num=ufwn, train/loss=0.0\r",
-      "Epoch 0:   0%| | 18/15423 [01:14<17:47:07,  4.16s/it, v_num=ufwn, train/loss=3.1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 19/15423 [01:16<17:10:03,  4.01s/it, v_num=ufwn, train/loss=3.1\r",
-      "Epoch 0:   0%| | 19/15423 [01:16<17:10:04,  4.01s/it, v_num=ufwn, train/loss=0.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 20/15423 [01:20<17:13:54,  4.03s/it, v_num=ufwn, train/loss=0.0\r",
-      "Epoch 0:   0%| | 20/15423 [01:20<17:13:55,  4.03s/it, v_num=ufwn, train/loss=7.7"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 21/15423 [01:22<16:51:24,  3.94s/it, v_num=ufwn, train/loss=7.7\r",
-      "Epoch 0:   0%| | 21/15423 [01:22<16:51:25,  3.94s/it, v_num=ufwn, train/loss=0.1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 22/15423 [01:26<16:54:52,  3.95s/it, v_num=ufwn, train/loss=0.1\r",
-      "Epoch 0:   0%| | 22/15423 [01:26<16:54:52,  3.95s/it, v_num=ufwn, train/loss=7.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 23/15423 [01:31<16:58:26,  3.97s/it, v_num=ufwn, train/loss=7.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 23/15423 [01:31<16:58:26,  3.97s/it, v_num=ufwn, train/loss=7.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 24/15423 [01:34<16:51:19,  3.94s/it, v_num=ufwn, train/loss=7.5\r",
-      "Epoch 0:   0%| | 24/15423 [01:34<16:51:20,  3.94s/it, v_num=ufwn, train/loss=4.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 25/15423 [01:36<16:33:53,  3.87s/it, v_num=ufwn, train/loss=4.0\r",
-      "Epoch 0:   0%| | 25/15423 [01:36<16:33:54,  3.87s/it, v_num=ufwn, train/loss=0.1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 26/15423 [01:39<16:17:46,  3.81s/it, v_num=ufwn, train/loss=0.1\r",
-      "Epoch 0:   0%| | 26/15423 [01:39<16:17:46,  3.81s/it, v_num=ufwn, train/loss=0.3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 27/15423 [01:43<16:23:10,  3.83s/it, v_num=ufwn, train/loss=0.3\r",
-      "Epoch 0:   0%| | 27/15423 [01:43<16:23:11,  3.83s/it, v_num=ufwn, train/loss=7.7"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 28/15423 [01:46<16:13:04,  3.79s/it, v_num=ufwn, train/loss=7.7\r",
-      "Epoch 0:   0%| | 28/15423 [01:46<16:13:05,  3.79s/it, v_num=ufwn, train/loss=1.9"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 29/15423 [01:46<15:45:19,  3.68s/it, v_num=ufwn, train/loss=1.9\r",
-      "Epoch 0:   0%| | 29/15423 [01:46<15:45:20,  3.68s/it, v_num=ufwn, train/loss=0.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 30/15423 [01:48<15:28:15,  3.62s/it, v_num=ufwn, train/loss=0.0\r",
-      "Epoch 0:   0%| | 30/15423 [01:48<15:28:16,  3.62s/it, v_num=ufwn, train/loss=0.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 31/15423 [01:50<15:16:36,  3.57s/it, v_num=ufwn, train/loss=0.0\r",
-      "Epoch 0:   0%| | 31/15423 [01:50<15:16:36,  3.57s/it, v_num=ufwn, train/loss=0.1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 32/15423 [01:54<15:20:26,  3.59s/it, v_num=ufwn, train/loss=0.1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 32/15423 [01:57<15:43:47,  3.68s/it, v_num=ufwn, train/loss=0.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 33/15423 [01:59<15:28:17,  3.62s/it, v_num=ufwn, train/loss=0.0\r",
-      "Epoch 0:   0%| | 33/15423 [01:59<15:28:17,  3.62s/it, v_num=ufwn, train/loss=7.9"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 34/15423 [02:02<15:25:55,  3.61s/it, v_num=ufwn, train/loss=7.9\r",
-      "Epoch 0:   0%| | 34/15423 [02:02<15:25:56,  3.61s/it, v_num=ufwn, train/loss=9.3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 35/15423 [02:06<15:23:25,  3.60s/it, v_num=ufwn, train/loss=9.3\r",
-      "Epoch 0:   0%| | 35/15423 [02:06<15:23:25,  3.60s/it, v_num=ufwn, train/loss=9.4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 36/15423 [02:08<15:17:22,  3.58s/it, v_num=ufwn, train/loss=9.4\r",
-      "Epoch 0:   0%| | 36/15423 [02:08<15:17:22,  3.58s/it, v_num=ufwn, train/loss=9.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 37/15423 [02:09<15:00:55,  3.51s/it, v_num=ufwn, train/loss=9.0\r",
-      "Epoch 0:   0%| | 37/15423 [02:09<15:00:56,  3.51s/it, v_num=ufwn, train/loss=0.1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 38/15423 [02:14<15:06:19,  3.53s/it, v_num=ufwn, train/loss=0.1\r",
-      "Epoch 0:   0%| | 38/15423 [02:14<15:06:19,  3.53s/it, v_num=ufwn, train/loss=9.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 39/15423 [02:16<14:54:07,  3.49s/it, v_num=ufwn, train/loss=9.5\r",
-      "Epoch 0:   0%| | 39/15423 [02:16<14:54:07,  3.49s/it, v_num=ufwn, train/loss=7.4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 40/15423 [02:19<14:52:47,  3.48s/it, v_num=ufwn, train/loss=7.4\r",
-      "Epoch 0:   0%| | 40/15423 [02:19<14:52:47,  3.48s/it, v_num=ufwn, train/loss=9.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 41/15423 [02:22<14:51:18,  3.48s/it, v_num=ufwn, train/loss=9.5\r",
-      "Epoch 0:   0%| | 41/15423 [02:22<14:51:18,  3.48s/it, v_num=ufwn, train/loss=9.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 42/15423 [02:26<14:53:17,  3.48s/it, v_num=ufwn, train/loss=9.5\r",
-      "Epoch 0:   0%| | 42/15423 [02:26<14:53:18,  3.48s/it, v_num=ufwn, train/loss=9.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 43/15423 [02:30<14:55:05,  3.49s/it, v_num=ufwn, train/loss=9.5\r",
-      "Epoch 0:   0%| | 43/15423 [02:30<14:55:05,  3.49s/it, v_num=ufwn, train/loss=9.6"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 44/15423 [02:32<14:47:38,  3.46s/it, v_num=ufwn, train/loss=9.6\r",
-      "Epoch 0:   0%| | 44/15423 [02:32<14:47:38,  3.46s/it, v_num=ufwn, train/loss=8.6"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 45/15423 [02:35<14:46:35,  3.46s/it, v_num=ufwn, train/loss=8.6\r",
-      "Epoch 0:   0%| | 45/15423 [02:35<14:46:35,  3.46s/it, v_num=ufwn, train/loss=9.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 46/15423 [02:39<14:48:30,  3.47s/it, v_num=ufwn, train/loss=9.5\r",
-      "Epoch 0:   0%| | 46/15423 [02:39<14:48:30,  3.47s/it, v_num=ufwn, train/loss=9.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 47/15423 [02:41<14:41:44,  3.44s/it, v_num=ufwn, train/loss=9.5\r",
-      "Epoch 0:   0%| | 47/15423 [02:41<14:41:44,  3.44s/it, v_num=ufwn, train/loss=8.9"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 48/15423 [02:43<14:32:24,  3.40s/it, v_num=ufwn, train/loss=8.9\r",
-      "Epoch 0:   0%| | 48/15423 [02:43<14:32:24,  3.40s/it, v_num=ufwn, train/loss=8.3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 49/15423 [02:45<14:26:11,  3.38s/it, v_num=ufwn, train/loss=8.3\r",
-      "Epoch 0:   0%| | 49/15423 [02:45<14:26:11,  3.38s/it, v_num=ufwn, train/loss=8.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 50/15423 [02:49<14:30:38,  3.40s/it, v_num=ufwn, train/loss=8.5\r",
-      "Epoch 0:   0%| | 50/15423 [02:49<14:30:39,  3.40s/it, v_num=ufwn, train/loss=9.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 51/15423 [02:52<14:27:17,  3.39s/it, v_num=ufwn, train/loss=9.5\r",
-      "Epoch 0:   0%| | 51/15423 [02:52<14:27:17,  3.39s/it, v_num=ufwn, train/loss=9.2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 52/15423 [02:55<14:26:50,  3.38s/it, v_num=ufwn, train/loss=9.2\r",
-      "Epoch 0:   0%| | 52/15423 [02:55<14:26:50,  3.38s/it, v_num=ufwn, train/loss=9.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 53/15423 [02:57<14:16:07,  3.34s/it, v_num=ufwn, train/loss=9.5\r",
-      "Epoch 0:   0%| | 53/15423 [02:57<14:16:07,  3.34s/it, v_num=ufwn, train/loss=6.3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 54/15423 [03:01<14:21:00,  3.36s/it, v_num=ufwn, train/loss=6.3\r",
-      "Epoch 0:   0%| | 54/15423 [03:01<14:21:00,  3.36s/it, v_num=ufwn, train/loss=9.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 55/15423 [03:05<14:22:57,  3.37s/it, v_num=ufwn, train/loss=9.5\r",
-      "Epoch 0:   0%| | 55/15423 [03:05<14:22:57,  3.37s/it, v_num=ufwn, train/loss=9.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 56/15423 [03:10<14:32:43,  3.41s/it, v_num=ufwn, train/loss=9.5\r",
-      "Epoch 0:   0%| | 56/15423 [03:10<14:32:44,  3.41s/it, v_num=ufwn, train/loss=9.6"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 57/15423 [03:14<14:31:55,  3.40s/it, v_num=ufwn, train/loss=9.6\r",
-      "Epoch 0:   0%| | 57/15423 [03:14<14:31:55,  3.40s/it, v_num=ufwn, train/loss=9.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 58/15423 [03:17<14:33:19,  3.41s/it, v_num=ufwn, train/loss=9.5\r",
-      "Epoch 0:   0%| | 58/15423 [03:17<14:33:19,  3.41s/it, v_num=ufwn, train/loss=9.4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 59/15423 [03:20<14:30:15,  3.40s/it, v_num=ufwn, train/loss=9.4\r",
-      "Epoch 0:   0%| | 59/15423 [03:20<14:30:15,  3.40s/it, v_num=ufwn, train/loss=9.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 60/15423 [03:24<14:33:53,  3.41s/it, v_num=ufwn, train/loss=9.0\r",
-      "Epoch 0:   0%| | 60/15423 [03:24<14:33:54,  3.41s/it, v_num=ufwn, train/loss=9.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 61/15423 [03:28<14:33:10,  3.41s/it, v_num=ufwn, train/loss=9.5\r",
-      "Epoch 0:   0%| | 61/15423 [03:28<14:33:10,  3.41s/it, v_num=ufwn, train/loss=9.4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 62/15423 [03:32<14:36:40,  3.42s/it, v_num=ufwn, train/loss=9.4\r",
-      "Epoch 0:   0%| | 62/15423 [03:32<14:36:40,  3.42s/it, v_num=ufwn, train/loss=9.6"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 63/15423 [03:36<14:40:09,  3.44s/it, v_num=ufwn, train/loss=9.6\r",
-      "Epoch 0:   0%| | 63/15423 [03:36<14:40:10,  3.44s/it, v_num=ufwn, train/loss=9.7"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 64/15423 [03:43<14:52:50,  3.49s/it, v_num=ufwn, train/loss=9.7"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 64/15423 [03:46<15:04:29,  3.53s/it, v_num=ufwn, train/loss=9.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 65/15423 [03:48<15:01:19,  3.52s/it, v_num=ufwn, train/loss=9.5\r",
-      "Epoch 0:   0%| | 65/15423 [03:48<15:01:19,  3.52s/it, v_num=ufwn, train/loss=8.1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 66/15423 [03:52<15:00:11,  3.52s/it, v_num=ufwn, train/loss=8.1\r",
-      "Epoch 0:   0%| | 66/15423 [03:52<15:00:12,  3.52s/it, v_num=ufwn, train/loss=8.2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 67/15423 [03:54<14:57:07,  3.51s/it, v_num=ufwn, train/loss=8.2\r",
-      "Epoch 0:   0%| | 67/15423 [03:54<14:57:07,  3.51s/it, v_num=ufwn, train/loss=8.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 68/15423 [03:55<14:46:25,  3.46s/it, v_num=ufwn, train/loss=8.0\r",
-      "Epoch 0:   0%| | 68/15423 [03:55<14:46:25,  3.46s/it, v_num=ufwn, train/loss=5.1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 69/15423 [03:59<14:47:27,  3.47s/it, v_num=ufwn, train/loss=5.1\r",
-      "Epoch 0:   0%| | 69/15423 [03:59<14:47:27,  3.47s/it, v_num=ufwn, train/loss=8.3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 70/15423 [04:01<14:42:46,  3.45s/it, v_num=ufwn, train/loss=8.3\r",
-      "Epoch 0:   0%| | 70/15423 [04:01<14:42:46,  3.45s/it, v_num=ufwn, train/loss=8.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 71/15423 [04:05<14:43:49,  3.45s/it, v_num=ufwn, train/loss=8.0\r",
-      "Epoch 0:   0%| | 71/15423 [04:05<14:43:49,  3.45s/it, v_num=ufwn, train/loss=8.3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 72/15423 [04:05<14:33:49,  3.42s/it, v_num=ufwn, train/loss=8.3\r",
-      "Epoch 0:   0%| | 72/15423 [04:05<14:33:49,  3.42s/it, v_num=ufwn, train/loss=0.2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 73/15423 [04:10<14:36:54,  3.43s/it, v_num=ufwn, train/loss=0.2\r",
-      "Epoch 0:   0%| | 73/15423 [04:10<14:36:54,  3.43s/it, v_num=ufwn, train/loss=8.3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 74/15423 [04:12<14:32:43,  3.41s/it, v_num=ufwn, train/loss=8.3\r",
-      "Epoch 0:   0%| | 74/15423 [04:12<14:32:43,  3.41s/it, v_num=ufwn, train/loss=7.6"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 75/15423 [04:14<14:28:31,  3.40s/it, v_num=ufwn, train/loss=7.6\r",
-      "Epoch 0:   0%| | 75/15423 [04:14<14:28:31,  3.40s/it, v_num=ufwn, train/loss=7.9"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 76/15423 [04:15<14:19:16,  3.36s/it, v_num=ufwn, train/loss=7.9\r",
-      "Epoch 0:   0%| | 76/15423 [04:15<14:19:16,  3.36s/it, v_num=ufwn, train/loss=1.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   0%| | 77/15423 [04:18<14:18:51,  3.36s/it, v_num=ufwn, train/loss=1.5\r",
-      "Epoch 0:   0%| | 77/15423 [04:18<14:18:52,  3.36s/it, v_num=ufwn, train/loss=8.3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 78/15423 [04:21<14:17:26,  3.35s/it, v_num=ufwn, train/loss=8.3\r",
-      "Epoch 0:   1%| | 78/15423 [04:21<14:17:26,  3.35s/it, v_num=ufwn, train/loss=7.9"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 79/15423 [04:22<14:08:40,  3.32s/it, v_num=ufwn, train/loss=7.9\r",
-      "Epoch 0:   1%| | 79/15423 [04:22<14:08:40,  3.32s/it, v_num=ufwn, train/loss=0.7"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 80/15423 [04:25<14:08:21,  3.32s/it, v_num=ufwn, train/loss=0.7\r",
-      "Epoch 0:   1%| | 80/15423 [04:25<14:08:21,  3.32s/it, v_num=ufwn, train/loss=8.2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 81/15423 [04:27<14:04:48,  3.30s/it, v_num=ufwn, train/loss=8.2\r",
-      "Epoch 0:   1%| | 81/15423 [04:27<14:04:48,  3.30s/it, v_num=ufwn, train/loss=7.8"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 82/15423 [04:31<14:06:13,  3.31s/it, v_num=ufwn, train/loss=7.8\r",
-      "Epoch 0:   1%| | 82/15423 [04:31<14:06:13,  3.31s/it, v_num=ufwn, train/loss=8.3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 83/15423 [04:35<14:07:29,  3.31s/it, v_num=ufwn, train/loss=8.3\r",
-      "Epoch 0:   1%| | 83/15423 [04:35<14:07:29,  3.31s/it, v_num=ufwn, train/loss=8.3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 84/15423 [04:36<14:02:28,  3.30s/it, v_num=ufwn, train/loss=8.3\r",
-      "Epoch 0:   1%| | 84/15423 [04:36<14:02:29,  3.30s/it, v_num=ufwn, train/loss=7.2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 85/15423 [04:40<14:03:58,  3.30s/it, v_num=ufwn, train/loss=7.2\r",
-      "Epoch 0:   1%| | 85/15423 [04:40<14:03:58,  3.30s/it, v_num=ufwn, train/loss=8.3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 86/15423 [04:43<14:02:11,  3.29s/it, v_num=ufwn, train/loss=8.3\r",
-      "Epoch 0:   1%| | 86/15423 [04:43<14:02:11,  3.29s/it, v_num=ufwn, train/loss=8.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 87/15423 [04:47<14:05:05,  3.31s/it, v_num=ufwn, train/loss=8.0\r",
-      "Epoch 0:   1%| | 87/15423 [04:47<14:05:05,  3.31s/it, v_num=ufwn, train/loss=8.3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 88/15423 [04:49<14:01:53,  3.29s/it, v_num=ufwn, train/loss=8.3\r",
-      "Epoch 0:   1%| | 88/15423 [04:49<14:01:53,  3.29s/it, v_num=ufwn, train/loss=7.6"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 89/15423 [04:51<13:57:10,  3.28s/it, v_num=ufwn, train/loss=7.6\r",
-      "Epoch 0:   1%| | 89/15423 [04:51<13:57:10,  3.28s/it, v_num=ufwn, train/loss=7.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 90/15423 [04:53<13:52:34,  3.26s/it, v_num=ufwn, train/loss=7.0\r",
-      "Epoch 0:   1%| | 90/15423 [04:53<13:52:34,  3.26s/it, v_num=ufwn, train/loss=7.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 91/15423 [04:55<13:49:41,  3.25s/it, v_num=ufwn, train/loss=7.0\r",
-      "Epoch 0:   1%| | 91/15423 [04:55<13:49:41,  3.25s/it, v_num=ufwn, train/loss=7.9"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 92/15423 [04:56<13:43:54,  3.22s/it, v_num=ufwn, train/loss=7.9\r",
-      "Epoch 0:   1%| | 92/15423 [04:56<13:43:54,  3.22s/it, v_num=ufwn, train/loss=7.0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 93/15423 [04:58<13:39:45,  3.21s/it, v_num=ufwn, train/loss=7.0\r",
-      "Epoch 0:   1%| | 93/15423 [04:58<13:39:45,  3.21s/it, v_num=ufwn, train/loss=7.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 94/15423 [05:01<13:40:00,  3.21s/it, v_num=ufwn, train/loss=7.5\r",
-      "Epoch 0:   1%| | 94/15423 [05:01<13:40:00,  3.21s/it, v_num=ufwn, train/loss=8.1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 95/15423 [05:03<13:37:16,  3.20s/it, v_num=ufwn, train/loss=8.1\r",
-      "Epoch 0:   1%| | 95/15423 [05:03<13:37:16,  3.20s/it, v_num=ufwn, train/loss=7.7"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 96/15423 [05:19<14:09:30,  3.33s/it, v_num=ufwn, train/loss=7.7\r",
-      "Epoch 0:   1%| | 96/15423 [05:19<14:09:31,  3.33s/it, v_num=ufwn, train/loss=8.3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 97/15423 [05:21<14:06:28,  3.31s/it, v_num=ufwn, train/loss=8.3\r",
-      "Epoch 0:   1%| | 97/15423 [05:21<14:06:28,  3.31s/it, v_num=ufwn, train/loss=7.4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 98/15423 [05:22<14:00:53,  3.29s/it, v_num=ufwn, train/loss=7.4\r",
-      "Epoch 0:   1%| | 98/15423 [05:22<14:00:53,  3.29s/it, v_num=ufwn, train/loss=6.5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 99/15423 [05:25<13:59:22,  3.29s/it, v_num=ufwn, train/loss=6.5\r",
-      "Epoch 0:   1%| | 99/15423 [05:25<13:59:22,  3.29s/it, v_num=ufwn, train/loss=7.8"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 100/15423 [05:29<14:00:42,  3.29s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 100/15423 [05:29<14:00:42,  3.29s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 101/15423 [05:33<14:02:02,  3.30s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 101/15423 [05:33<14:02:02,  3.30s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 102/15423 [05:34<13:57:59,  3.28s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 102/15423 [05:34<13:57:59,  3.28s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 103/15423 [05:36<13:54:04,  3.27s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 103/15423 [05:36<13:54:04,  3.27s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 104/15423 [05:40<13:56:38,  3.28s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 104/15423 [05:40<13:56:38,  3.28s/it, v_num=ufwn, train/loss=8."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 105/15423 [05:43<13:54:12,  3.27s/it, v_num=ufwn, train/loss=8.\r",
-      "Epoch 0:   1%| | 105/15423 [05:43<13:54:12,  3.27s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 106/15423 [05:46<13:54:17,  3.27s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 106/15423 [05:46<13:54:17,  3.27s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 107/15423 [05:48<13:50:37,  3.25s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 107/15423 [05:48<13:50:37,  3.25s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 108/15423 [05:49<13:45:42,  3.23s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 108/15423 [05:49<13:45:42,  3.23s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 109/15423 [05:52<13:44:33,  3.23s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 109/15423 [05:52<13:44:33,  3.23s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 110/15423 [05:55<13:44:40,  3.23s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 110/15423 [05:55<13:44:40,  3.23s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 111/15423 [05:57<13:41:08,  3.22s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 111/15423 [05:57<13:41:08,  3.22s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 112/15423 [05:59<13:38:50,  3.21s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 112/15423 [05:59<13:38:50,  3.21s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 113/15423 [06:00<13:34:11,  3.19s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 113/15423 [06:00<13:34:11,  3.19s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 114/15423 [06:01<13:29:35,  3.17s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   1%| | 114/15423 [06:01<13:29:35,  3.17s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 115/15423 [06:02<13:25:05,  3.16s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   1%| | 115/15423 [06:02<13:25:05,  3.16s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 116/15423 [06:07<13:27:38,  3.17s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   1%| | 116/15423 [06:07<13:27:38,  3.17s/it, v_num=ufwn, train/loss=8."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 117/15423 [06:10<13:26:49,  3.16s/it, v_num=ufwn, train/loss=8.\r",
-      "Epoch 0:   1%| | 117/15423 [06:10<13:26:49,  3.16s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 118/15423 [06:13<13:27:09,  3.16s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 118/15423 [06:13<13:27:09,  3.16s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 119/15423 [06:17<13:28:37,  3.17s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 119/15423 [06:17<13:28:37,  3.17s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 120/15423 [06:19<13:25:32,  3.16s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 120/15423 [06:19<13:25:32,  3.16s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 121/15423 [06:21<13:23:35,  3.15s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 121/15423 [06:21<13:23:35,  3.15s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 122/15423 [06:22<13:20:32,  3.14s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 122/15423 [06:22<13:20:32,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 123/15423 [06:25<13:19:41,  3.14s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 123/15423 [06:25<13:19:41,  3.14s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 124/15423 [06:27<13:16:45,  3.12s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 124/15423 [06:27<13:16:45,  3.12s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 125/15423 [06:30<13:17:04,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 125/15423 [06:30<13:17:04,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 126/15423 [06:34<13:17:26,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 126/15423 [06:34<13:17:26,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 127/15423 [06:36<13:15:36,  3.12s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 127/15423 [06:36<13:15:37,  3.12s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 128/15423 [07:00<13:57:38,  3.29s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 128/15423 [07:00<13:57:38,  3.29s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 129/15423 [07:01<13:52:25,  3.27s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 129/15423 [07:01<13:52:26,  3.27s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 130/15423 [07:05<13:53:30,  3.27s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   1%| | 130/15423 [07:05<13:53:30,  3.27s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 131/15423 [07:07<13:51:26,  3.26s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 131/15423 [07:07<13:51:26,  3.26s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 132/15423 [07:10<13:50:27,  3.26s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 132/15423 [07:10<13:50:27,  3.26s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 133/15423 [07:12<13:49:31,  3.26s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 133/15423 [07:12<13:49:31,  3.26s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 134/15423 [07:16<13:50:37,  3.26s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 134/15423 [07:16<13:50:37,  3.26s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 135/15423 [07:19<13:48:37,  3.25s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 135/15423 [07:19<13:48:37,  3.25s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 136/15423 [07:19<13:43:42,  3.23s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 136/15423 [07:19<13:43:42,  3.23s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 137/15423 [07:23<13:45:39,  3.24s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   1%| | 137/15423 [07:23<13:45:39,  3.24s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 138/15423 [07:25<13:42:48,  3.23s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 138/15423 [07:25<13:42:48,  3.23s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 139/15423 [07:30<13:44:50,  3.24s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 139/15423 [07:30<13:44:50,  3.24s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 140/15423 [07:31<13:42:02,  3.23s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 140/15423 [07:31<13:42:02,  3.23s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 141/15423 [07:35<13:42:11,  3.23s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 141/15423 [07:35<13:42:11,  3.23s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 142/15423 [07:37<13:41:14,  3.22s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 142/15423 [07:37<13:41:14,  3.22s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 143/15423 [07:42<13:43:12,  3.23s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 143/15423 [07:42<13:43:12,  3.23s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 144/15423 [07:42<13:38:39,  3.21s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 144/15423 [07:42<13:38:39,  3.21s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 145/15423 [07:45<13:36:55,  3.21s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   1%| | 145/15423 [07:45<13:36:55,  3.21s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 146/15423 [07:47<13:36:04,  3.21s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 146/15423 [07:47<13:36:04,  3.21s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 147/15423 [07:51<13:37:03,  3.21s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 147/15423 [07:51<13:37:03,  3.21s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 148/15423 [07:52<13:33:32,  3.20s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 148/15423 [07:52<13:33:32,  3.20s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 149/15423 [07:56<13:33:38,  3.20s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   1%| | 149/15423 [07:56<13:33:38,  3.20s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 150/15423 [08:00<13:35:36,  3.20s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 150/15423 [08:00<13:35:36,  3.20s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 151/15423 [08:02<13:33:57,  3.20s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 151/15423 [08:02<13:33:57,  3.20s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 152/15423 [08:04<13:30:35,  3.18s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 152/15423 [08:04<13:30:35,  3.18s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 153/15423 [08:06<13:29:49,  3.18s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 153/15423 [08:06<13:29:49,  3.18s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 154/15423 [08:11<13:31:39,  3.19s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 154/15423 [08:11<13:31:39,  3.19s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 155/15423 [08:14<13:31:45,  3.19s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 155/15423 [08:14<13:31:45,  3.19s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 156/15423 [08:18<13:32:43,  3.19s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 156/15423 [08:18<13:32:43,  3.19s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 157/15423 [08:22<13:33:47,  3.20s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 157/15423 [08:22<13:33:47,  3.20s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 158/15423 [08:24<13:32:09,  3.19s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 158/15423 [08:24<13:32:09,  3.19s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 159/15423 [08:25<13:28:02,  3.18s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 159/15423 [08:25<13:28:02,  3.18s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 160/15423 [08:39<13:45:47,  3.25s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   1%| | 160/15423 [08:39<13:45:47,  3.25s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 161/15423 [08:43<13:47:33,  3.25s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 161/15423 [08:43<13:47:33,  3.25s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 162/15423 [08:47<13:48:19,  3.26s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 162/15423 [08:47<13:48:19,  3.26s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 163/15423 [08:48<13:44:14,  3.24s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 163/15423 [08:48<13:44:14,  3.24s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 164/15423 [08:49<13:41:46,  3.23s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   1%| | 164/15423 [08:49<13:41:46,  3.23s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 165/15423 [08:51<13:39:20,  3.22s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   1%| | 165/15423 [08:51<13:39:20,  3.22s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 166/15423 [08:53<13:36:59,  3.21s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 166/15423 [08:53<13:36:59,  3.21s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 167/15423 [08:57<13:38:36,  3.22s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 167/15423 [08:57<13:38:36,  3.22s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 168/15423 [08:58<13:35:29,  3.21s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 168/15423 [08:58<13:35:29,  3.21s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 169/15423 [09:00<13:33:11,  3.20s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   1%| | 169/15423 [09:00<13:33:11,  3.20s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 170/15423 [09:03<13:32:29,  3.20s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 170/15423 [09:03<13:32:30,  3.20s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 171/15423 [09:07<13:33:15,  3.20s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 171/15423 [09:07<13:33:15,  3.20s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 172/15423 [09:09<13:32:30,  3.20s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 172/15423 [09:09<13:32:30,  3.20s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 173/15423 [09:12<13:30:59,  3.19s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 173/15423 [09:12<13:30:59,  3.19s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 174/15423 [09:14<13:30:15,  3.19s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 174/15423 [09:14<13:30:15,  3.19s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 175/15423 [09:17<13:30:17,  3.19s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 175/15423 [09:17<13:30:17,  3.19s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 176/15423 [09:20<13:28:51,  3.18s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 176/15423 [09:20<13:28:51,  3.18s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 177/15423 [09:21<13:25:56,  3.17s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 177/15423 [09:21<13:25:56,  3.17s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 178/15423 [09:23<13:23:45,  3.16s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   1%| | 178/15423 [09:23<13:23:45,  3.16s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 179/15423 [09:24<13:21:36,  3.16s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   1%| | 179/15423 [09:24<13:21:36,  3.16s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 180/15423 [09:26<13:19:27,  3.15s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   1%| | 180/15423 [09:26<13:19:27,  3.15s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 181/15423 [09:27<13:16:38,  3.14s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 181/15423 [09:27<13:16:38,  3.14s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 182/15423 [09:29<13:14:34,  3.13s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   1%| | 182/15423 [09:29<13:14:34,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 183/15423 [09:33<13:15:23,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 183/15423 [09:33<13:15:23,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 184/15423 [09:33<13:11:56,  3.12s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 184/15423 [09:33<13:11:56,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 185/15423 [09:36<13:12:02,  3.12s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   1%| | 185/15423 [09:36<13:12:02,  3.12s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 186/15423 [09:39<13:10:44,  3.11s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 186/15423 [09:39<13:10:44,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 187/15423 [09:41<13:09:32,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 187/15423 [09:41<13:09:32,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 188/15423 [09:42<13:06:12,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 188/15423 [09:42<13:06:12,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 189/15423 [09:43<13:04:19,  3.09s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   1%| | 189/15423 [09:43<13:04:19,  3.09s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 190/15423 [09:45<13:02:27,  3.08s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 190/15423 [09:45<13:02:27,  3.08s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 191/15423 [09:49<13:04:07,  3.09s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 191/15423 [09:49<13:04:07,  3.09s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 192/15423 [10:21<13:41:17,  3.24s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 192/15423 [10:21<13:41:17,  3.24s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 193/15423 [10:22<13:38:32,  3.22s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 193/15423 [10:22<13:38:32,  3.22s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 194/15423 [10:24<13:36:31,  3.22s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   1%| | 194/15423 [10:24<13:36:31,  3.22s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 195/15423 [10:27<13:37:20,  3.22s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 195/15423 [10:27<13:37:20,  3.22s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 196/15423 [10:29<13:35:24,  3.21s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 196/15423 [10:29<13:35:24,  3.21s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 197/15423 [10:30<13:32:03,  3.20s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   1%| | 197/15423 [10:30<13:32:03,  3.20s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 198/15423 [10:31<13:28:45,  3.19s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   1%| | 198/15423 [10:31<13:28:45,  3.19s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 199/15423 [10:32<13:26:49,  3.18s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   1%| | 199/15423 [10:32<13:26:49,  3.18s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 200/15423 [10:33<13:23:34,  3.17s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   1%| | 200/15423 [10:33<13:23:34,  3.17s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 201/15423 [10:36<13:23:36,  3.17s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   1%| | 201/15423 [10:36<13:23:36,  3.17s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 202/15423 [10:38<13:21:44,  3.16s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 202/15423 [10:38<13:21:44,  3.16s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 203/15423 [10:39<13:19:13,  3.15s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 203/15423 [10:39<13:19:13,  3.15s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 204/15423 [10:40<13:16:05,  3.14s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   1%| | 204/15423 [10:40<13:16:05,  3.14s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 205/15423 [10:43<13:15:35,  3.14s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   1%| | 205/15423 [10:43<13:15:35,  3.14s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 206/15423 [10:45<13:14:26,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 206/15423 [10:45<13:14:26,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 207/15423 [10:45<13:11:25,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 207/15423 [10:45<13:11:25,  3.12s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 208/15423 [10:50<13:12:50,  3.13s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   1%| | 208/15423 [10:50<13:12:50,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 209/15423 [10:53<13:12:18,  3.12s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 209/15423 [10:53<13:12:18,  3.12s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 210/15423 [10:56<13:13:02,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 210/15423 [10:56<13:13:02,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 211/15423 [10:57<13:10:01,  3.12s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 211/15423 [10:57<13:10:01,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 212/15423 [11:01<13:10:47,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   1%| | 212/15423 [11:01<13:10:47,  3.12s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 213/15423 [11:04<13:10:18,  3.12s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 213/15423 [11:04<13:10:18,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 214/15423 [11:05<13:08:33,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 214/15423 [11:05<13:08:33,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 215/15423 [11:09<13:09:18,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   1%| | 215/15423 [11:09<13:09:18,  3.11s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 216/15423 [11:13<13:10:02,  3.12s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 216/15423 [11:13<13:10:02,  3.12s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 217/15423 [11:17<13:11:23,  3.12s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 217/15423 [11:17<13:11:23,  3.12s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 218/15423 [11:21<13:12:42,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 218/15423 [11:21<13:12:42,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 219/15423 [11:25<13:12:49,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 219/15423 [11:25<13:12:49,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 220/15423 [11:29<13:14:07,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 220/15423 [11:29<13:14:07,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 221/15423 [11:32<13:14:15,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 221/15423 [11:32<13:14:16,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 222/15423 [11:34<13:12:34,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 222/15423 [11:34<13:12:34,  3.13s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 223/15423 [11:38<13:13:15,  3.13s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   1%| | 223/15423 [11:38<13:13:15,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 224/15423 [12:00<13:35:13,  3.22s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 224/15423 [12:00<13:35:13,  3.22s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 225/15423 [12:03<13:34:43,  3.22s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   1%| | 225/15423 [12:03<13:34:43,  3.22s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 226/15423 [12:08<13:35:56,  3.22s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   1%| | 226/15423 [12:08<13:35:56,  3.22s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 227/15423 [12:09<13:34:14,  3.21s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   1%| | 227/15423 [12:09<13:34:14,  3.21s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 228/15423 [12:11<13:32:33,  3.21s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   1%| | 228/15423 [12:11<13:32:33,  3.21s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 229/15423 [12:12<13:29:42,  3.20s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   1%| | 229/15423 [12:12<13:29:42,  3.20s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 230/15423 [12:13<13:28:01,  3.19s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   1%| | 230/15423 [12:13<13:28:01,  3.19s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   1%| | 231/15423 [12:18<13:29:13,  3.20s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   1%| | 231/15423 [12:18<13:29:13,  3.20s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 232/15423 [12:19<13:27:00,  3.19s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 232/15423 [12:19<13:27:01,  3.19s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 233/15423 [12:22<13:26:30,  3.19s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   2%| | 233/15423 [12:22<13:26:30,  3.19s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 234/15423 [12:26<13:27:46,  3.19s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 234/15423 [12:26<13:27:46,  3.19s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 235/15423 [12:29<13:27:16,  3.19s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 235/15423 [12:29<13:27:17,  3.19s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 236/15423 [12:32<13:26:45,  3.19s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 236/15423 [12:32<13:26:45,  3.19s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 237/15423 [12:33<13:25:09,  3.18s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 237/15423 [12:33<13:25:09,  3.18s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 238/15423 [12:36<13:24:07,  3.18s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 238/15423 [12:36<13:24:07,  3.18s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 239/15423 [12:37<13:21:59,  3.17s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 239/15423 [12:37<13:21:59,  3.17s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 240/15423 [12:41<13:22:42,  3.17s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   2%| | 240/15423 [12:41<13:22:42,  3.17s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 241/15423 [12:45<13:23:56,  3.18s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 241/15423 [12:45<13:23:56,  3.18s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 242/15423 [12:47<13:22:56,  3.17s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 242/15423 [12:47<13:22:56,  3.17s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 243/15423 [12:51<13:23:35,  3.18s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 243/15423 [12:51<13:23:35,  3.18s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 244/15423 [12:54<13:22:35,  3.17s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 244/15423 [12:54<13:22:35,  3.17s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 245/15423 [12:57<13:22:43,  3.17s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 245/15423 [12:57<13:22:43,  3.17s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 246/15423 [12:59<13:21:13,  3.17s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 246/15423 [12:59<13:21:13,  3.17s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 247/15423 [13:01<13:20:45,  3.17s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 247/15423 [13:01<13:20:45,  3.17s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 248/15423 [13:03<13:19:14,  3.16s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 248/15423 [13:03<13:19:14,  3.16s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 249/15423 [13:08<13:20:26,  3.17s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   2%| | 249/15423 [13:08<13:20:26,  3.17s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 250/15423 [13:10<13:19:29,  3.16s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 250/15423 [13:10<13:19:29,  3.16s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 251/15423 [13:13<13:19:35,  3.16s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 251/15423 [13:13<13:19:35,  3.16s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 252/15423 [13:16<13:19:38,  3.16s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 252/15423 [13:16<13:19:38,  3.16s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 253/15423 [13:17<13:17:06,  3.15s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 253/15423 [13:17<13:17:06,  3.15s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 254/15423 [13:20<13:17:08,  3.15s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   2%| | 254/15423 [13:20<13:17:08,  3.15s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 255/15423 [13:22<13:15:38,  3.15s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 255/15423 [13:22<13:15:38,  3.15s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 256/15423 [13:39<13:29:09,  3.20s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 256/15423 [13:39<13:29:09,  3.20s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 257/15423 [13:41<13:28:10,  3.20s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 257/15423 [13:41<13:28:10,  3.20s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 258/15423 [13:43<13:27:11,  3.19s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 258/15423 [13:43<13:27:11,  3.19s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 259/15423 [13:46<13:26:13,  3.19s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 259/15423 [13:46<13:26:13,  3.19s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 260/15423 [13:50<13:27:19,  3.19s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 260/15423 [13:50<13:27:19,  3.19s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 261/15423 [13:51<13:24:49,  3.18s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 261/15423 [13:51<13:24:49,  3.18s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 262/15423 [13:55<13:25:22,  3.19s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   2%| | 262/15423 [13:55<13:25:22,  3.19s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 263/15423 [13:59<13:26:25,  3.19s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 263/15423 [13:59<13:26:25,  3.19s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 264/15423 [14:00<13:24:28,  3.18s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 264/15423 [14:00<13:24:28,  3.18s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 265/15423 [14:02<13:23:32,  3.18s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   2%| | 265/15423 [14:02<13:23:32,  3.18s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 266/15423 [14:04<13:22:07,  3.18s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 266/15423 [14:04<13:22:07,  3.18s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 267/15423 [14:05<13:20:13,  3.17s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   2%| | 267/15423 [14:05<13:20:13,  3.17s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 268/15423 [14:08<13:19:48,  3.17s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   2%| | 268/15423 [14:08<13:19:48,  3.17s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 269/15423 [14:12<13:20:25,  3.17s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 269/15423 [14:12<13:20:25,  3.17s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 270/15423 [14:16<13:21:24,  3.17s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 270/15423 [14:16<13:21:24,  3.17s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 271/15423 [14:19<13:20:57,  3.17s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 271/15423 [14:19<13:20:57,  3.17s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 272/15423 [14:20<13:19:05,  3.16s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 272/15423 [14:20<13:19:05,  3.16s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 273/15423 [14:22<13:17:42,  3.16s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   2%| | 273/15423 [14:22<13:17:42,  3.16s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 274/15423 [14:24<13:16:17,  3.15s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   2%| | 274/15423 [14:24<13:16:17,  3.15s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 275/15423 [14:27<13:16:20,  3.15s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   2%| | 275/15423 [14:27<13:16:20,  3.15s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 276/15423 [14:29<13:14:57,  3.15s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 276/15423 [14:29<13:14:57,  3.15s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 277/15423 [14:31<13:14:02,  3.15s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   2%| | 277/15423 [14:31<13:14:02,  3.15s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 278/15423 [14:33<13:13:09,  3.14s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 278/15423 [14:33<13:13:09,  3.14s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 279/15423 [14:37<13:13:41,  3.14s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 279/15423 [14:37<13:13:41,  3.14s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 280/15423 [14:41<13:14:39,  3.15s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 280/15423 [14:41<13:14:39,  3.15s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 281/15423 [14:44<13:14:14,  3.15s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 281/15423 [14:44<13:14:14,  3.15s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 282/15423 [14:45<13:11:58,  3.14s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 282/15423 [14:45<13:11:58,  3.14s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 283/15423 [14:49<13:12:57,  3.14s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   2%| | 283/15423 [14:49<13:12:57,  3.14s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 284/15423 [14:51<13:12:04,  3.14s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 284/15423 [14:51<13:12:04,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 285/15423 [14:53<13:10:44,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 285/15423 [14:53<13:10:44,  3.13s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 286/15423 [14:55<13:10:19,  3.13s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   2%| | 286/15423 [14:55<13:10:19,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 287/15423 [15:00<13:11:15,  3.14s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 287/15423 [15:00<13:11:15,  3.14s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 288/15423 [15:18<13:24:26,  3.19s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 288/15423 [15:18<13:24:26,  3.19s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 289/15423 [15:22<13:25:22,  3.19s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 289/15423 [15:22<13:25:22,  3.19s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 290/15423 [15:25<13:24:54,  3.19s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 290/15423 [15:25<13:24:54,  3.19s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 291/15423 [15:27<13:24:00,  3.19s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 291/15423 [15:27<13:24:00,  3.19s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 292/15423 [15:29<13:22:41,  3.18s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 292/15423 [15:29<13:22:41,  3.18s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 293/15423 [15:31<13:21:21,  3.18s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   2%| | 293/15423 [15:31<13:21:21,  3.18s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 294/15423 [15:33<13:20:55,  3.18s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   2%| | 294/15423 [15:33<13:20:55,  3.18s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 295/15423 [15:35<13:19:09,  3.17s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 295/15423 [15:35<13:19:09,  3.17s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 296/15423 [15:36<13:17:51,  3.16s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   2%| | 296/15423 [15:36<13:17:51,  3.16s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 297/15423 [15:38<13:16:33,  3.16s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   2%| | 297/15423 [15:38<13:16:33,  3.16s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 298/15423 [15:40<13:15:43,  3.16s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   2%| | 298/15423 [15:40<13:15:43,  3.16s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 299/15423 [15:43<13:15:45,  3.16s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 299/15423 [15:43<13:15:45,  3.16s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 300/15423 [15:45<13:14:27,  3.15s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 300/15423 [15:45<13:14:27,  3.15s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 301/15423 [15:49<13:15:22,  3.16s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   2%| | 301/15423 [15:49<13:15:22,  3.16s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 302/15423 [15:54<13:16:17,  3.16s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 302/15423 [15:54<13:16:17,  3.16s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 303/15423 [15:56<13:15:26,  3.16s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 303/15423 [15:56<13:15:26,  3.16s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 304/15423 [15:57<13:13:43,  3.15s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 304/15423 [15:57<13:13:43,  3.15s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 305/15423 [16:01<13:14:12,  3.15s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   2%| | 305/15423 [16:01<13:14:12,  3.15s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 306/15423 [16:05<13:15:06,  3.16s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 306/15423 [16:05<13:15:06,  3.16s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 307/15423 [16:06<13:13:27,  3.15s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 307/15423 [16:06<13:13:27,  3.15s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 308/15423 [16:08<13:12:14,  3.14s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   2%| | 308/15423 [16:08<13:12:14,  3.14s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 309/15423 [16:12<13:13:06,  3.15s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   2%| | 309/15423 [16:12<13:13:06,  3.15s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 310/15423 [16:17<13:13:59,  3.15s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 310/15423 [16:17<13:13:59,  3.15s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 311/15423 [16:19<13:13:10,  3.15s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 311/15423 [16:19<13:13:10,  3.15s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 312/15423 [16:21<13:12:22,  3.15s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 312/15423 [16:21<13:12:22,  3.15s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 313/15423 [16:23<13:11:34,  3.14s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 313/15423 [16:23<13:11:34,  3.14s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 314/15423 [16:27<13:11:37,  3.14s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 314/15423 [16:27<13:11:37,  3.14s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 315/15423 [16:29<13:11:15,  3.14s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 315/15423 [16:29<13:11:16,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 316/15423 [16:33<13:11:20,  3.14s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 316/15423 [16:33<13:11:21,  3.14s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 317/15423 [16:35<13:10:33,  3.14s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 317/15423 [16:35<13:10:33,  3.14s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 318/15423 [16:38<13:10:12,  3.14s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 318/15423 [16:38<13:10:12,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 319/15423 [16:39<13:08:37,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 319/15423 [16:39<13:08:37,  3.13s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 320/15423 [16:52<13:16:10,  3.16s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   2%| | 320/15423 [16:52<13:16:10,  3.16s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 321/15423 [16:54<13:15:47,  3.16s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 321/15423 [16:54<13:15:47,  3.16s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 322/15423 [16:56<13:14:12,  3.16s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 322/15423 [16:56<13:14:12,  3.16s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 323/15423 [16:59<13:14:37,  3.16s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   2%| | 323/15423 [16:59<13:14:37,  3.16s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 324/15423 [17:01<13:13:03,  3.15s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 324/15423 [17:01<13:13:03,  3.15s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 325/15423 [17:05<13:13:53,  3.15s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   2%| | 325/15423 [17:05<13:13:53,  3.15s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 326/15423 [17:08<13:13:56,  3.16s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 326/15423 [17:08<13:13:56,  3.16s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 327/15423 [17:11<13:13:33,  3.15s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 327/15423 [17:11<13:13:33,  3.15s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 328/15423 [17:15<13:13:59,  3.16s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 328/15423 [17:15<13:13:59,  3.16s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 329/15423 [17:19<13:14:48,  3.16s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 329/15423 [17:19<13:14:48,  3.16s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 330/15423 [17:21<13:13:37,  3.15s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 330/15423 [17:21<13:13:37,  3.15s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 331/15423 [17:24<13:13:40,  3.16s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   2%| | 331/15423 [17:24<13:13:40,  3.16s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 332/15423 [17:25<13:11:44,  3.15s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 332/15423 [17:25<13:11:44,  3.15s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 333/15423 [17:29<13:12:33,  3.15s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   2%| | 333/15423 [17:29<13:12:33,  3.15s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 334/15423 [17:33<13:12:59,  3.15s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 334/15423 [17:33<13:12:59,  3.15s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 335/15423 [17:37<13:13:47,  3.16s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 335/15423 [17:37<13:13:47,  3.16s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 336/15423 [17:40<13:13:51,  3.16s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 336/15423 [17:40<13:13:51,  3.16s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 337/15423 [17:45<13:14:39,  3.16s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 337/15423 [17:45<13:14:39,  3.16s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 338/15423 [17:49<13:15:26,  3.16s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 338/15423 [17:49<13:15:26,  3.16s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 339/15423 [17:53<13:15:51,  3.17s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 339/15423 [17:53<13:15:51,  3.17s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 340/15423 [17:53<13:13:57,  3.16s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 340/15423 [17:53<13:13:57,  3.16s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 341/15423 [17:57<13:13:58,  3.16s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   2%| | 341/15423 [17:57<13:13:58,  3.16s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 342/15423 [17:58<13:12:28,  3.15s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 342/15423 [17:58<13:12:28,  3.15s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 343/15423 [17:59<13:11:22,  3.15s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   2%| | 343/15423 [17:59<13:11:22,  3.15s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 344/15423 [18:01<13:09:53,  3.14s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   2%| | 344/15423 [18:01<13:09:53,  3.14s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 345/15423 [18:02<13:08:48,  3.14s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   2%| | 345/15423 [18:02<13:08:48,  3.14s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 346/15423 [18:05<13:08:28,  3.14s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   2%| | 346/15423 [18:05<13:08:28,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 347/15423 [18:07<13:07:22,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 347/15423 [18:07<13:07:22,  3.13s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 348/15423 [18:11<13:08:11,  3.14s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   2%| | 348/15423 [18:11<13:08:11,  3.14s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 349/15423 [18:12<13:06:43,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 349/15423 [18:12<13:06:43,  3.13s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 350/15423 [18:16<13:06:47,  3.13s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   2%| | 350/15423 [18:16<13:06:48,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 351/15423 [18:18<13:06:27,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 351/15423 [18:18<13:06:27,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 352/15423 [18:32<13:13:43,  3.16s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 352/15423 [18:32<13:13:43,  3.16s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 353/15423 [18:36<13:14:29,  3.16s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 353/15423 [18:36<13:14:29,  3.16s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 354/15423 [18:39<13:14:31,  3.16s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 354/15423 [18:39<13:14:31,  3.16s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 355/15423 [18:41<13:13:04,  3.16s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 355/15423 [18:41<13:13:04,  3.16s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 356/15423 [18:41<13:11:15,  3.15s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   2%| | 356/15423 [18:41<13:11:15,  3.15s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 357/15423 [18:43<13:10:33,  3.15s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   2%| | 357/15423 [18:43<13:10:33,  3.15s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 358/15423 [18:47<13:11:01,  3.15s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   2%| | 358/15423 [18:47<13:11:01,  3.15s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 359/15423 [18:51<13:11:03,  3.15s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 359/15423 [18:51<13:11:03,  3.15s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 360/15423 [18:52<13:09:59,  3.15s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 360/15423 [18:52<13:09:59,  3.15s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 361/15423 [18:56<13:10:00,  3.15s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   2%| | 361/15423 [18:56<13:10:01,  3.15s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 362/15423 [19:00<13:10:46,  3.15s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 362/15423 [19:00<13:10:46,  3.15s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 363/15423 [19:02<13:10:04,  3.15s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 363/15423 [19:02<13:10:04,  3.15s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 364/15423 [19:06<13:10:27,  3.15s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   2%| | 364/15423 [19:06<13:10:27,  3.15s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 365/15423 [19:07<13:08:42,  3.14s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 365/15423 [19:07<13:08:42,  3.14s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 366/15423 [19:09<13:08:22,  3.14s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   2%| | 366/15423 [19:09<13:08:22,  3.14s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 367/15423 [19:11<13:07:20,  3.14s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 367/15423 [19:11<13:07:20,  3.14s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 368/15423 [19:14<13:07:00,  3.14s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   2%| | 368/15423 [19:14<13:07:00,  3.14s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 369/15423 [19:15<13:05:58,  3.13s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 369/15423 [19:15<13:05:58,  3.13s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 370/15423 [19:19<13:06:00,  3.13s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   2%| | 370/15423 [19:19<13:06:00,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 371/15423 [19:19<13:04:17,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 371/15423 [19:19<13:04:17,  3.13s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 372/15423 [19:23<13:04:41,  3.13s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   2%| | 372/15423 [19:23<13:04:41,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 373/15423 [19:27<13:05:03,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 373/15423 [19:27<13:05:03,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 374/15423 [19:29<13:04:23,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 374/15423 [19:29<13:04:23,  3.13s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 375/15423 [19:32<13:04:05,  3.13s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   2%| | 375/15423 [19:32<13:04:05,  3.13s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 376/15423 [19:36<13:04:48,  3.13s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   2%| | 376/15423 [19:36<13:04:48,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 377/15423 [19:38<13:03:49,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 377/15423 [19:38<13:03:49,  3.13s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 378/15423 [19:41<13:03:31,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   2%| | 378/15423 [19:41<13:03:32,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 379/15423 [19:45<13:04:16,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 379/15423 [19:45<13:04:16,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 380/15423 [19:48<13:04:18,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 380/15423 [19:48<13:04:18,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 381/15423 [19:50<13:03:19,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   2%| | 381/15423 [19:50<13:03:19,  3.12s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 382/15423 [19:51<13:01:59,  3.12s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   2%| | 382/15423 [19:51<13:01:59,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 383/15423 [19:52<13:00:41,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   2%| | 383/15423 [19:52<13:00:41,  3.11s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 384/15423 [20:08<13:08:49,  3.15s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   2%| | 384/15423 [20:08<13:08:49,  3.15s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   2%| | 385/15423 [20:10<13:07:49,  3.14s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   2%| | 385/15423 [20:10<13:07:49,  3.14s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 386/15423 [20:11<13:06:30,  3.14s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 386/15423 [20:11<13:06:30,  3.14s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 387/15423 [20:14<13:06:11,  3.14s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   3%| | 387/15423 [20:14<13:06:11,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 388/15423 [20:18<13:06:53,  3.14s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 388/15423 [20:18<13:06:53,  3.14s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 389/15423 [20:20<13:06:13,  3.14s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 389/15423 [20:20<13:06:13,  3.14s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 390/15423 [20:22<13:05:35,  3.14s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 390/15423 [20:22<13:05:35,  3.14s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 391/15423 [20:26<13:05:55,  3.14s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 391/15423 [20:26<13:05:55,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 392/15423 [20:29<13:05:39,  3.14s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 392/15423 [20:29<13:05:39,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 393/15423 [20:33<13:06:14,  3.14s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 393/15423 [20:33<13:06:14,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 394/15423 [20:35<13:05:15,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 394/15423 [20:35<13:05:15,  3.13s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 395/15423 [20:36<13:04:18,  3.13s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   3%| | 395/15423 [20:36<13:04:18,  3.13s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 396/15423 [20:39<13:04:00,  3.13s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   3%| | 396/15423 [20:39<13:04:00,  3.13s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 397/15423 [20:42<13:03:41,  3.13s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 397/15423 [20:42<13:03:41,  3.13s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 398/15423 [20:44<13:02:45,  3.13s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 398/15423 [20:44<13:02:45,  3.13s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 399/15423 [20:44<13:01:09,  3.12s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   3%| | 399/15423 [20:44<13:01:09,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 400/15423 [20:49<13:01:51,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   3%| | 400/15423 [20:49<13:01:51,  3.12s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 401/15423 [20:52<13:02:12,  3.12s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 401/15423 [20:52<13:02:12,  3.12s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 402/15423 [20:56<13:02:32,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 402/15423 [20:56<13:02:32,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 403/15423 [21:00<13:02:55,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 403/15423 [21:00<13:02:55,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 404/15423 [21:04<13:03:39,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 404/15423 [21:04<13:03:39,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 405/15423 [21:08<13:03:41,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 405/15423 [21:08<13:03:41,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 406/15423 [21:09<13:02:45,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 406/15423 [21:09<13:02:45,  3.13s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 407/15423 [21:13<13:02:47,  3.13s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   3%| | 407/15423 [21:13<13:02:47,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 408/15423 [21:15<13:02:30,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 408/15423 [21:15<13:02:30,  3.13s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 409/15423 [21:19<13:02:52,  3.13s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 409/15423 [21:19<13:02:52,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 410/15423 [21:21<13:02:15,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 410/15423 [21:21<13:02:15,  3.13s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 411/15423 [21:26<13:02:55,  3.13s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 411/15423 [21:26<13:02:55,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 412/15423 [21:29<13:02:57,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 412/15423 [21:29<13:02:57,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 413/15423 [21:30<13:01:44,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 413/15423 [21:30<13:01:44,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 414/15423 [21:31<13:00:31,  3.12s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   3%| | 414/15423 [21:31<13:00:31,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 415/15423 [21:36<13:01:12,  3.12s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   3%| | 415/15423 [21:36<13:01:12,  3.12s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 416/15423 [21:48<13:06:47,  3.15s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 416/15423 [21:48<13:06:47,  3.15s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 417/15423 [21:49<13:05:15,  3.14s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   3%| | 417/15423 [21:49<13:05:15,  3.14s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 418/15423 [21:50<13:04:02,  3.14s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   3%| | 418/15423 [21:50<13:04:02,  3.14s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 419/15423 [21:53<13:04:06,  3.14s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   3%| | 419/15423 [21:53<13:04:06,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 420/15423 [21:56<13:03:32,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 420/15423 [21:56<13:03:32,  3.13s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 421/15423 [21:58<13:03:19,  3.13s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 421/15423 [21:58<13:03:19,  3.13s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 422/15423 [22:00<13:02:27,  3.13s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 422/15423 [22:00<13:02:27,  3.13s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 423/15423 [22:02<13:01:35,  3.13s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 423/15423 [22:02<13:01:35,  3.13s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 424/15423 [22:05<13:01:38,  3.13s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   3%| | 424/15423 [22:05<13:01:38,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 425/15423 [22:10<13:02:16,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 425/15423 [22:10<13:02:16,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 426/15423 [22:14<13:02:56,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 426/15423 [22:14<13:02:56,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 427/15423 [22:17<13:02:40,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 427/15423 [22:17<13:02:40,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 428/15423 [22:21<13:03:03,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 428/15423 [22:21<13:03:03,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 429/15423 [22:23<13:02:47,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 429/15423 [22:23<13:02:47,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 430/15423 [22:27<13:03:07,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 430/15423 [22:27<13:03:07,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 431/15423 [22:31<13:03:46,  3.14s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 431/15423 [22:31<13:03:46,  3.14s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 432/15423 [22:36<13:04:23,  3.14s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 432/15423 [22:36<13:04:23,  3.14s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 433/15423 [22:39<13:04:26,  3.14s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 433/15423 [22:39<13:04:26,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 434/15423 [22:41<13:03:52,  3.14s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 434/15423 [22:41<13:03:52,  3.14s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 435/15423 [22:44<13:03:38,  3.14s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 435/15423 [22:44<13:03:38,  3.14s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 436/15423 [22:46<13:02:46,  3.13s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 436/15423 [22:46<13:02:46,  3.13s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 437/15423 [22:50<13:03:25,  3.14s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   3%| | 437/15423 [22:50<13:03:25,  3.14s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 438/15423 [22:55<13:04:05,  3.14s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 438/15423 [22:55<13:04:05,  3.14s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 439/15423 [22:59<13:04:45,  3.14s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 439/15423 [22:59<13:04:45,  3.14s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 440/15423 [23:00<13:03:36,  3.14s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 440/15423 [23:00<13:03:36,  3.14s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 441/15423 [23:01<13:02:09,  3.13s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   3%| | 441/15423 [23:01<13:02:09,  3.13s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 442/15423 [23:02<13:01:01,  3.13s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   3%| | 442/15423 [23:02<13:01:01,  3.13s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 443/15423 [23:03<12:59:35,  3.12s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   3%| | 443/15423 [23:03<12:59:35,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 444/15423 [23:07<12:59:56,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   3%| | 444/15423 [23:07<12:59:56,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 445/15423 [23:10<13:00:18,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 445/15423 [23:10<13:00:18,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 446/15423 [23:15<13:00:57,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 446/15423 [23:15<13:00:57,  3.13s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 447/15423 [23:17<13:00:28,  3.13s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 447/15423 [23:17<13:00:28,  3.13s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 448/15423 [23:26<13:03:40,  3.14s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 448/15423 [23:26<13:03:40,  3.14s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 449/15423 [23:30<13:03:43,  3.14s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   3%| | 449/15423 [23:30<13:03:43,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 450/15423 [23:33<13:04:03,  3.14s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 450/15423 [23:33<13:04:03,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 451/15423 [23:36<13:03:29,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 451/15423 [23:36<13:03:29,  3.14s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 452/15423 [23:38<13:02:56,  3.14s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 452/15423 [23:38<13:02:56,  3.14s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 453/15423 [23:42<13:03:16,  3.14s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 453/15423 [23:42<13:03:16,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 454/15423 [23:44<13:03:00,  3.14s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 454/15423 [23:44<13:03:00,  3.14s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 455/15423 [23:49<13:03:36,  3.14s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 455/15423 [23:49<13:03:36,  3.14s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 456/15423 [23:52<13:03:38,  3.14s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 456/15423 [23:52<13:03:38,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 457/15423 [23:54<13:03:07,  3.14s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 457/15423 [23:54<13:03:07,  3.14s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 458/15423 [23:56<13:02:17,  3.14s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 458/15423 [23:56<13:02:17,  3.14s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 459/15423 [23:59<13:02:21,  3.14s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   3%| | 459/15423 [23:59<13:02:21,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 460/15423 [24:00<13:00:58,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 460/15423 [24:00<13:00:58,  3.13s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 461/15423 [24:03<13:00:45,  3.13s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   3%| | 461/15423 [24:03<13:00:45,  3.13s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 462/15423 [24:07<13:01:05,  3.13s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 462/15423 [24:07<13:01:05,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 463/15423 [24:09<13:00:35,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 463/15423 [24:09<13:00:35,  3.13s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 464/15423 [24:11<13:00:06,  3.13s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 464/15423 [24:11<13:00:06,  3.13s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 465/15423 [24:12<12:58:44,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 465/15423 [24:12<12:58:44,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 466/15423 [24:16<12:59:04,  3.13s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   3%| | 466/15423 [24:16<12:59:04,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 467/15423 [24:18<12:58:34,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 467/15423 [24:18<12:58:34,  3.12s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 468/15423 [24:20<12:58:03,  3.12s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   3%| | 468/15423 [24:20<12:58:03,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 469/15423 [24:22<12:57:15,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 469/15423 [24:22<12:57:15,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 470/15423 [24:25<12:57:19,  3.12s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   3%| | 470/15423 [24:25<12:57:19,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 471/15423 [24:30<12:57:56,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 471/15423 [24:30<12:57:56,  3.12s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 472/15423 [24:32<12:57:08,  3.12s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 472/15423 [24:32<12:57:08,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 473/15423 [24:36<12:57:43,  3.12s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   3%| | 473/15423 [24:36<12:57:43,  3.12s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 474/15423 [24:39<12:57:29,  3.12s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 474/15423 [24:39<12:57:29,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 475/15423 [24:42<12:57:17,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 475/15423 [24:42<12:57:17,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 476/15423 [24:46<12:57:53,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 476/15423 [24:46<12:57:53,  3.12s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 477/15423 [24:48<12:57:06,  3.12s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 477/15423 [24:48<12:57:06,  3.12s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 478/15423 [24:49<12:56:20,  3.12s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   3%| | 478/15423 [24:49<12:56:20,  3.12s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 479/15423 [24:51<12:55:34,  3.11s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   3%| | 479/15423 [24:51<12:55:34,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 480/15423 [25:08<13:02:47,  3.14s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   3%| | 480/15423 [25:08<13:02:47,  3.14s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 481/15423 [25:11<13:02:48,  3.14s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 481/15423 [25:11<13:02:48,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 482/15423 [25:14<13:02:17,  3.14s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 482/15423 [25:14<13:02:17,  3.14s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 483/15423 [25:17<13:02:18,  3.14s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 483/15423 [25:17<13:02:19,  3.14s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 484/15423 [25:20<13:02:04,  3.14s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 484/15423 [25:20<13:02:04,  3.14s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 485/15423 [25:24<13:02:37,  3.14s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 485/15423 [25:24<13:02:37,  3.14s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 486/15423 [25:25<13:01:17,  3.14s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 486/15423 [25:25<13:01:17,  3.14s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 487/15423 [25:27<13:00:46,  3.14s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   3%| | 487/15423 [25:27<13:00:46,  3.14s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 488/15423 [25:29<13:00:14,  3.13s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 488/15423 [25:29<13:00:14,  3.13s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 489/15423 [25:33<13:00:31,  3.14s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 489/15423 [25:33<13:00:31,  3.14s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 490/15423 [25:35<12:59:59,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 490/15423 [25:35<12:59:59,  3.13s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 491/15423 [25:36<12:58:57,  3.13s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 491/15423 [25:36<12:58:57,  3.13s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 492/15423 [25:40<12:58:58,  3.13s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   3%| | 492/15423 [25:40<12:58:58,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 493/15423 [25:42<12:58:29,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 493/15423 [25:42<12:58:29,  3.13s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 494/15423 [25:43<12:57:12,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 494/15423 [25:43<12:57:12,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 495/15423 [25:45<12:56:41,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   3%| | 495/15423 [25:45<12:56:41,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 496/15423 [25:46<12:55:40,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 496/15423 [25:46<12:55:40,  3.12s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 497/15423 [25:49<12:55:42,  3.12s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   3%| | 497/15423 [25:49<12:55:42,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 498/15423 [25:51<12:54:57,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 498/15423 [25:51<12:54:57,  3.12s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 499/15423 [25:54<12:54:43,  3.11s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   3%| | 499/15423 [25:54<12:54:43,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 500/15423 [25:54<12:53:27,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 500/15423 [25:54<12:53:27,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 501/15423 [25:57<12:52:57,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   3%| | 501/15423 [25:57<12:52:57,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 502/15423 [25:59<12:52:29,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 502/15423 [25:59<12:52:29,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 503/15423 [26:00<12:51:29,  3.10s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 503/15423 [26:00<12:51:29,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 504/15423 [26:03<12:51:31,  3.10s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   3%| | 504/15423 [26:03<12:51:31,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 505/15423 [26:05<12:50:48,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 505/15423 [26:05<12:50:48,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 506/15423 [26:09<12:51:21,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   3%| | 506/15423 [26:09<12:51:21,  3.10s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 507/15423 [26:13<12:51:38,  3.10s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 507/15423 [26:13<12:51:38,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 508/15423 [26:14<12:50:24,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 508/15423 [26:14<12:50:24,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 509/15423 [26:18<12:50:57,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   3%| | 509/15423 [26:18<12:50:58,  3.10s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 510/15423 [26:22<12:51:00,  3.10s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 510/15423 [26:22<12:51:00,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 511/15423 [26:25<12:51:17,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 511/15423 [26:25<12:51:17,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 512/15423 [26:40<12:56:45,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 512/15423 [26:40<12:56:45,  3.13s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 513/15423 [26:42<12:56:15,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 513/15423 [26:42<12:56:15,  3.12s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 514/15423 [26:46<12:56:31,  3.13s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   3%| | 514/15423 [26:46<12:56:31,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 515/15423 [26:46<12:55:17,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 515/15423 [26:46<12:55:17,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 516/15423 [26:48<12:54:32,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   3%| | 516/15423 [26:48<12:54:32,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 517/15423 [26:49<12:53:19,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   3%| | 517/15423 [26:49<12:53:19,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 518/15423 [26:52<12:53:04,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   3%| | 518/15423 [26:52<12:53:04,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 519/15423 [26:54<12:52:35,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 519/15423 [26:54<12:52:35,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 520/15423 [26:55<12:51:52,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 520/15423 [26:55<12:51:52,  3.11s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 521/15423 [26:58<12:51:23,  3.11s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   3%| | 521/15423 [26:58<12:51:23,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 522/15423 [27:01<12:51:41,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 522/15423 [27:01<12:51:41,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 523/15423 [27:05<12:51:43,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 523/15423 [27:05<12:51:43,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 524/15423 [27:06<12:51:00,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 524/15423 [27:06<12:51:00,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 525/15423 [27:11<12:51:32,  3.11s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   3%| | 525/15423 [27:11<12:51:32,  3.11s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 526/15423 [27:13<12:51:04,  3.11s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   3%| | 526/15423 [27:13<12:51:04,  3.11s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 527/15423 [27:15<12:50:21,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   3%| | 527/15423 [27:15<12:50:21,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 528/15423 [27:18<12:50:23,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   3%| | 528/15423 [27:18<12:50:23,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 529/15423 [27:21<12:50:09,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 529/15423 [27:21<12:50:09,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 530/15423 [27:23<12:49:41,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 530/15423 [27:23<12:49:41,  3.10s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 531/15423 [27:25<12:48:58,  3.10s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   3%| | 531/15423 [27:25<12:48:58,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 532/15423 [27:28<12:48:59,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   3%| | 532/15423 [27:28<12:48:59,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 533/15423 [27:32<12:49:29,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 533/15423 [27:32<12:49:29,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 534/15423 [27:34<12:48:47,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 534/15423 [27:34<12:48:47,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 535/15423 [27:36<12:48:19,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   3%| | 535/15423 [27:36<12:48:19,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 536/15423 [27:39<12:48:20,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   3%| | 536/15423 [27:39<12:48:20,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 537/15423 [27:42<12:48:06,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 537/15423 [27:42<12:48:06,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 538/15423 [27:46<12:48:36,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   3%| | 538/15423 [27:46<12:48:36,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   3%| | 539/15423 [27:48<12:47:55,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   3%| | 539/15423 [27:48<12:47:55,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 540/15423 [27:49<12:46:44,  3.09s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   4%| | 540/15423 [27:49<12:46:44,  3.09s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 541/15423 [27:53<12:47:15,  3.09s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 541/15423 [27:53<12:47:15,  3.09s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 542/15423 [27:57<12:47:33,  3.09s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 542/15423 [27:57<12:47:33,  3.09s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 543/15423 [28:00<12:47:34,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 543/15423 [28:00<12:47:34,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 544/15423 [28:20<12:55:21,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 544/15423 [28:20<12:55:21,  3.13s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 545/15423 [28:24<12:55:36,  3.13s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   4%| | 545/15423 [28:24<12:55:36,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 546/15423 [28:26<12:55:08,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 546/15423 [28:26<12:55:08,  3.13s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 547/15423 [28:29<12:54:40,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 547/15423 [28:29<12:54:40,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 548/15423 [28:30<12:53:44,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 548/15423 [28:30<12:53:45,  3.12s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 549/15423 [28:33<12:53:31,  3.12s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   4%| | 549/15423 [28:33<12:53:31,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 550/15423 [28:36<12:53:32,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 550/15423 [28:36<12:53:32,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 551/15423 [28:40<12:54:00,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 551/15423 [28:40<12:54:00,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 552/15423 [28:42<12:53:19,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 552/15423 [28:42<12:53:19,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 553/15423 [28:44<12:52:38,  3.12s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   4%| | 553/15423 [28:44<12:52:38,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 554/15423 [28:48<12:53:08,  3.12s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   4%| | 554/15423 [28:48<12:53:08,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 555/15423 [28:51<12:53:09,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 555/15423 [28:51<12:53:09,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 556/15423 [28:55<12:53:38,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 556/15423 [28:55<12:53:38,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 557/15423 [28:57<12:52:56,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 557/15423 [28:57<12:52:56,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 558/15423 [29:01<12:53:24,  3.12s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   4%| | 558/15423 [29:01<12:53:24,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 559/15423 [29:02<12:52:16,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 559/15423 [29:02<12:52:16,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 560/15423 [29:04<12:51:49,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 560/15423 [29:04<12:51:49,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 561/15423 [29:07<12:51:36,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 561/15423 [29:07<12:51:36,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 562/15423 [29:10<12:51:22,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 562/15423 [29:10<12:51:22,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 563/15423 [29:13<12:51:09,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 563/15423 [29:13<12:51:09,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 564/15423 [29:15<12:50:42,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 564/15423 [29:15<12:50:43,  3.11s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 565/15423 [29:16<12:50:02,  3.11s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   4%| | 565/15423 [29:16<12:50:02,  3.11s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 566/15423 [29:20<12:50:16,  3.11s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   4%| | 566/15423 [29:20<12:50:16,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 567/15423 [29:23<12:50:04,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 567/15423 [29:23<12:50:04,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 568/15423 [29:24<12:48:58,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 568/15423 [29:24<12:48:58,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 569/15423 [29:28<12:49:29,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 569/15423 [29:28<12:49:29,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 570/15423 [29:29<12:48:23,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 570/15423 [29:29<12:48:23,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 571/15423 [29:31<12:47:45,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 571/15423 [29:31<12:47:45,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 572/15423 [29:33<12:47:21,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   4%| | 572/15423 [29:33<12:47:21,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 573/15423 [29:35<12:46:42,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   4%| | 573/15423 [29:35<12:46:42,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 574/15423 [29:38<12:46:44,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   4%| | 574/15423 [29:38<12:46:44,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 575/15423 [29:41<12:46:31,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 575/15423 [29:41<12:46:31,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 576/15423 [29:56<12:51:52,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 576/15423 [29:56<12:51:52,  3.12s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 577/15423 [30:01<12:52:19,  3.12s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   4%| | 577/15423 [30:01<12:52:19,  3.12s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 578/15423 [30:04<12:52:22,  3.12s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   4%| | 578/15423 [30:04<12:52:22,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 579/15423 [30:08<12:52:36,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 579/15423 [30:08<12:52:37,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 580/15423 [30:10<12:52:11,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 580/15423 [30:10<12:52:11,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 581/15423 [30:14<12:52:38,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 581/15423 [30:14<12:52:38,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 582/15423 [30:16<12:52:12,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 582/15423 [30:16<12:52:12,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 583/15423 [30:21<12:52:39,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 583/15423 [30:21<12:52:39,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 584/15423 [30:24<12:52:26,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 584/15423 [30:24<12:52:26,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 585/15423 [30:26<12:51:59,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 585/15423 [30:26<12:51:59,  3.12s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 586/15423 [30:30<12:52:26,  3.12s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   4%| | 586/15423 [30:30<12:52:26,  3.12s/it, v_num=ufwn, train/loss=7."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 587/15423 [30:33<12:52:26,  3.12s/it, v_num=ufwn, train/loss=7.\r",
-      "Epoch 0:   4%| | 587/15423 [30:33<12:52:26,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 588/15423 [30:34<12:51:21,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 588/15423 [30:34<12:51:21,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 589/15423 [30:35<12:50:30,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 589/15423 [30:35<12:50:30,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 590/15423 [30:36<12:49:25,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 590/15423 [30:36<12:49:25,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 591/15423 [30:39<12:49:13,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 591/15423 [30:39<12:49:13,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 592/15423 [30:42<12:49:13,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 592/15423 [30:42<12:49:13,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 593/15423 [30:46<12:49:40,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 593/15423 [30:46<12:49:40,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 594/15423 [30:48<12:49:14,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 594/15423 [30:48<12:49:14,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 595/15423 [30:49<12:48:10,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 595/15423 [30:49<12:48:10,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 596/15423 [30:53<12:48:38,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 596/15423 [30:53<12:48:38,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 597/15423 [30:57<12:48:52,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 597/15423 [30:57<12:48:52,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 598/15423 [30:59<12:48:15,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 598/15423 [30:59<12:48:15,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 599/15423 [31:01<12:47:50,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   4%| | 599/15423 [31:01<12:47:50,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 600/15423 [31:02<12:46:59,  3.10s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 600/15423 [31:02<12:46:59,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 601/15423 [31:06<12:46:59,  3.10s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   4%| | 601/15423 [31:06<12:46:59,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 602/15423 [31:08<12:46:49,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 602/15423 [31:08<12:46:49,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 603/15423 [31:10<12:46:12,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 603/15423 [31:10<12:46:12,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 604/15423 [31:11<12:45:22,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   4%| | 604/15423 [31:11<12:45:22,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 605/15423 [31:13<12:44:58,  3.10s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   4%| | 605/15423 [31:13<12:44:58,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 606/15423 [31:17<12:45:12,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   4%| | 606/15423 [31:17<12:45:12,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 607/15423 [31:18<12:44:10,  3.09s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 607/15423 [31:18<12:44:10,  3.09s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 608/15423 [31:38<12:51:00,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 608/15423 [31:38<12:51:00,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 609/15423 [31:41<12:50:48,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 609/15423 [31:41<12:50:48,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 610/15423 [31:42<12:50:11,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 610/15423 [31:42<12:50:11,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 611/15423 [31:46<12:50:25,  3.12s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   4%| | 611/15423 [31:46<12:50:25,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 612/15423 [31:48<12:49:47,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 612/15423 [31:48<12:49:47,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 613/15423 [31:50<12:49:23,  3.12s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   4%| | 613/15423 [31:50<12:49:23,  3.12s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 614/15423 [31:52<12:48:45,  3.11s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   4%| | 614/15423 [31:52<12:48:45,  3.11s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 615/15423 [31:54<12:48:10,  3.11s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   4%| | 615/15423 [31:54<12:48:10,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 616/15423 [31:55<12:47:33,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   4%| | 616/15423 [31:55<12:47:33,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 617/15423 [31:59<12:47:46,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 617/15423 [31:59<12:47:46,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 618/15423 [32:02<12:47:34,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 618/15423 [32:02<12:47:34,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 619/15423 [32:05<12:47:22,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 619/15423 [32:05<12:47:22,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 620/15423 [32:06<12:46:46,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 620/15423 [32:06<12:46:46,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 621/15423 [32:09<12:46:34,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   4%| | 621/15423 [32:09<12:46:34,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 622/15423 [32:12<12:46:23,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 622/15423 [32:12<12:46:23,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 623/15423 [32:15<12:46:11,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 623/15423 [32:15<12:46:11,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 624/15423 [32:16<12:45:23,  3.10s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 624/15423 [32:16<12:45:23,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 625/15423 [32:18<12:44:59,  3.10s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   4%| | 625/15423 [32:18<12:44:59,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 626/15423 [32:19<12:44:11,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   4%| | 626/15423 [32:19<12:44:11,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 627/15423 [32:22<12:43:47,  3.10s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   4%| | 627/15423 [32:22<12:43:47,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 628/15423 [32:26<12:44:14,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   4%| | 628/15423 [32:26<12:44:14,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 629/15423 [32:28<12:43:38,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 629/15423 [32:28<12:43:38,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 630/15423 [32:29<12:42:51,  3.09s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   4%| | 630/15423 [32:29<12:42:51,  3.09s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 631/15423 [32:31<12:42:28,  3.09s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   4%| | 631/15423 [32:31<12:42:28,  3.09s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 632/15423 [32:34<12:42:18,  3.09s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   4%| | 632/15423 [32:34<12:42:18,  3.09s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 633/15423 [32:37<12:42:08,  3.09s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 633/15423 [32:37<12:42:08,  3.09s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 634/15423 [32:39<12:41:45,  3.09s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 634/15423 [32:39<12:41:45,  3.09s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 635/15423 [32:40<12:40:57,  3.09s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 635/15423 [32:40<12:40:57,  3.09s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 636/15423 [32:42<12:40:35,  3.09s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 636/15423 [32:42<12:40:35,  3.09s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 637/15423 [32:46<12:40:49,  3.09s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   4%| | 637/15423 [32:46<12:40:49,  3.09s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 638/15423 [32:50<12:41:03,  3.09s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 638/15423 [32:50<12:41:03,  3.09s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 639/15423 [32:53<12:41:05,  3.09s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 639/15423 [32:53<12:41:05,  3.09s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 640/15423 [33:15<12:48:09,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 640/15423 [33:15<12:48:09,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 641/15423 [33:19<12:48:23,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 641/15423 [33:19<12:48:23,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 642/15423 [33:23<12:48:48,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 642/15423 [33:23<12:48:48,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 643/15423 [33:25<12:48:24,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 643/15423 [33:25<12:48:24,  3.12s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 644/15423 [33:28<12:48:12,  3.12s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   4%| | 644/15423 [33:28<12:48:12,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 645/15423 [33:30<12:47:37,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 645/15423 [33:30<12:47:37,  3.12s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 646/15423 [33:32<12:47:13,  3.12s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   4%| | 646/15423 [33:32<12:47:13,  3.12s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 647/15423 [33:36<12:47:37,  3.12s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   4%| | 647/15423 [33:36<12:47:37,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 648/15423 [33:39<12:47:37,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 648/15423 [33:39<12:47:37,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 649/15423 [33:43<12:47:37,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 649/15423 [33:43<12:47:37,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 650/15423 [33:47<12:48:01,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 650/15423 [33:47<12:48:01,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 651/15423 [33:50<12:47:49,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 651/15423 [33:50<12:47:49,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 652/15423 [33:52<12:47:25,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 652/15423 [33:52<12:47:25,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 653/15423 [33:54<12:46:50,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 653/15423 [33:54<12:46:50,  3.12s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 654/15423 [33:56<12:46:39,  3.11s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   4%| | 654/15423 [33:56<12:46:39,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 655/15423 [34:00<12:46:51,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 655/15423 [34:00<12:46:51,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 656/15423 [34:01<12:45:52,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 656/15423 [34:01<12:45:52,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 657/15423 [34:02<12:44:54,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 657/15423 [34:02<12:44:54,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 658/15423 [34:06<12:45:18,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 658/15423 [34:06<12:45:18,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 659/15423 [34:10<12:45:31,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 659/15423 [34:10<12:45:31,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 660/15423 [34:11<12:44:57,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 660/15423 [34:11<12:44:57,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 661/15423 [34:16<12:45:21,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   4%| | 661/15423 [34:16<12:45:21,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 662/15423 [34:19<12:45:23,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 662/15423 [34:19<12:45:23,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 663/15423 [34:21<12:45:00,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 663/15423 [34:21<12:45:00,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 664/15423 [34:22<12:44:14,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 664/15423 [34:22<12:44:14,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 665/15423 [34:24<12:43:39,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 665/15423 [34:24<12:43:39,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 666/15423 [34:28<12:44:04,  3.11s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   4%| | 666/15423 [34:28<12:44:04,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 667/15423 [34:32<12:44:04,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 667/15423 [34:32<12:44:04,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 668/15423 [34:34<12:43:42,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 668/15423 [34:34<12:43:42,  3.11s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 669/15423 [34:38<12:44:06,  3.11s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   4%| | 669/15423 [34:38<12:44:06,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 670/15423 [34:43<12:44:29,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 670/15423 [34:43<12:44:29,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 671/15423 [34:46<12:44:42,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 671/15423 [34:46<12:44:42,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 672/15423 [34:54<12:46:25,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 672/15423 [34:54<12:46:25,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 673/15423 [34:56<12:45:40,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   4%| | 673/15423 [34:56<12:45:40,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 674/15423 [34:57<12:45:06,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 674/15423 [34:57<12:45:06,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 675/15423 [34:59<12:44:22,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   4%| | 675/15423 [34:59<12:44:22,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 676/15423 [35:01<12:44:00,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 676/15423 [35:01<12:44:00,  3.11s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 677/15423 [35:04<12:43:48,  3.11s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   4%| | 677/15423 [35:04<12:43:48,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 678/15423 [35:06<12:43:26,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 678/15423 [35:06<12:43:26,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 679/15423 [35:07<12:42:41,  3.10s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 679/15423 [35:07<12:42:41,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 680/15423 [35:11<12:42:53,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 680/15423 [35:11<12:42:53,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 681/15423 [35:11<12:41:57,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   4%| | 681/15423 [35:11<12:41:57,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 682/15423 [35:14<12:41:35,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 682/15423 [35:14<12:41:35,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 683/15423 [35:14<12:40:39,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   4%| | 683/15423 [35:14<12:40:39,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 684/15423 [35:15<12:39:43,  3.09s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 684/15423 [35:15<12:39:43,  3.09s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 685/15423 [35:18<12:39:44,  3.09s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 685/15423 [35:18<12:39:44,  3.09s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 686/15423 [35:22<12:39:56,  3.09s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 686/15423 [35:22<12:39:56,  3.09s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 687/15423 [35:25<12:39:57,  3.09s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 687/15423 [35:25<12:39:57,  3.09s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 688/15423 [35:27<12:39:23,  3.09s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   4%| | 688/15423 [35:27<12:39:23,  3.09s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 689/15423 [35:30<12:39:14,  3.09s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   4%| | 689/15423 [35:30<12:39:14,  3.09s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 690/15423 [35:31<12:38:30,  3.09s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   4%| | 690/15423 [35:31<12:38:30,  3.09s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 691/15423 [35:33<12:38:08,  3.09s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   4%| | 691/15423 [35:33<12:38:08,  3.09s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 692/15423 [35:34<12:37:25,  3.09s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   4%| | 692/15423 [35:34<12:37:25,  3.09s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 693/15423 [35:36<12:36:53,  3.08s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   4%| | 693/15423 [35:36<12:36:53,  3.08s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   4%| | 694/15423 [35:39<12:36:42,  3.08s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   4%| | 694/15423 [35:39<12:36:42,  3.08s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 695/15423 [35:43<12:37:05,  3.08s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 695/15423 [35:43<12:37:05,  3.08s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 696/15423 [35:45<12:36:32,  3.08s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 696/15423 [35:45<12:36:32,  3.08s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 697/15423 [35:46<12:36:00,  3.08s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   5%| | 697/15423 [35:46<12:36:00,  3.08s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 698/15423 [35:47<12:35:06,  3.08s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   5%| | 698/15423 [35:47<12:35:06,  3.08s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 699/15423 [35:49<12:34:35,  3.07s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 699/15423 [35:49<12:34:35,  3.07s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 700/15423 [35:51<12:34:14,  3.07s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   5%| | 700/15423 [35:51<12:34:14,  3.07s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 701/15423 [35:53<12:33:53,  3.07s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 701/15423 [35:53<12:33:53,  3.07s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 702/15423 [35:55<12:33:10,  3.07s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 702/15423 [35:55<12:33:10,  3.07s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 703/15423 [36:00<12:33:48,  3.07s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 703/15423 [36:00<12:33:48,  3.07s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 704/15423 [36:32<12:44:09,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 704/15423 [36:32<12:44:09,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 705/15423 [36:35<12:43:58,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 705/15423 [36:35<12:43:58,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 706/15423 [36:37<12:43:26,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 706/15423 [36:37<12:43:26,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 707/15423 [36:40<12:43:15,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   5%| | 707/15423 [36:40<12:43:15,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 708/15423 [36:41<12:42:31,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 708/15423 [36:41<12:42:31,  3.11s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 709/15423 [36:44<12:42:22,  3.11s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   5%| | 709/15423 [36:44<12:42:22,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 710/15423 [36:46<12:42:02,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 710/15423 [36:46<12:42:02,  3.11s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 711/15423 [36:50<12:42:25,  3.11s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 711/15423 [36:50<12:42:25,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 712/15423 [36:53<12:42:16,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 712/15423 [36:53<12:42:16,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 713/15423 [36:54<12:41:33,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 713/15423 [36:54<12:41:33,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 714/15423 [36:55<12:40:51,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 714/15423 [36:55<12:40:51,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 715/15423 [36:57<12:40:19,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 715/15423 [36:57<12:40:19,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 716/15423 [36:59<12:39:58,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   5%| | 716/15423 [36:59<12:39:58,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 717/15423 [37:03<12:40:11,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 717/15423 [37:03<12:40:11,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 718/15423 [37:05<12:39:40,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 718/15423 [37:05<12:39:40,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 719/15423 [37:07<12:39:08,  3.10s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   5%| | 719/15423 [37:07<12:39:08,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 720/15423 [37:11<12:39:32,  3.10s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   5%| | 720/15423 [37:11<12:39:32,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 721/15423 [37:14<12:39:22,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 721/15423 [37:14<12:39:22,  3.10s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 722/15423 [37:18<12:39:34,  3.10s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 722/15423 [37:18<12:39:34,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 723/15423 [37:22<12:39:47,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 723/15423 [37:22<12:39:47,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 724/15423 [37:23<12:39:17,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 724/15423 [37:23<12:39:17,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 725/15423 [37:27<12:39:30,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   5%| | 725/15423 [37:27<12:39:30,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 726/15423 [37:30<12:39:10,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 726/15423 [37:30<12:39:10,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 727/15423 [37:33<12:39:22,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   5%| | 727/15423 [37:33<12:39:22,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 728/15423 [37:34<12:38:30,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 728/15423 [37:34<12:38:30,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 729/15423 [37:38<12:38:42,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 729/15423 [37:38<12:38:42,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 730/15423 [37:40<12:38:22,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 730/15423 [37:40<12:38:22,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 731/15423 [37:44<12:38:25,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 731/15423 [37:44<12:38:25,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 732/15423 [37:46<12:38:06,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 732/15423 [37:46<12:38:06,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 733/15423 [37:48<12:37:35,  3.09s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 733/15423 [37:48<12:37:35,  3.09s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 734/15423 [37:49<12:37:05,  3.09s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   5%| | 734/15423 [37:49<12:37:05,  3.09s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 735/15423 [37:54<12:37:26,  3.09s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   5%| | 735/15423 [37:54<12:37:26,  3.09s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 736/15423 [38:07<12:40:52,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 736/15423 [38:07<12:40:52,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 737/15423 [38:10<12:40:42,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 737/15423 [38:10<12:40:42,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 738/15423 [38:13<12:40:32,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 738/15423 [38:13<12:40:32,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 739/15423 [38:16<12:40:32,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 739/15423 [38:16<12:40:32,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 740/15423 [38:19<12:40:33,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 740/15423 [38:19<12:40:33,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 741/15423 [38:23<12:40:33,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 741/15423 [38:23<12:40:33,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 742/15423 [38:23<12:39:41,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 742/15423 [38:23<12:39:41,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 743/15423 [38:25<12:39:11,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 743/15423 [38:25<12:39:11,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 744/15423 [38:28<12:39:11,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   5%| | 744/15423 [38:28<12:39:11,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 745/15423 [38:29<12:38:21,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 745/15423 [38:29<12:38:21,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 746/15423 [38:30<12:37:40,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 746/15423 [38:30<12:37:40,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 747/15423 [38:33<12:37:41,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 747/15423 [38:33<12:37:41,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 748/15423 [38:37<12:37:52,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 748/15423 [38:37<12:37:52,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 749/15423 [38:42<12:38:15,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 749/15423 [38:42<12:38:15,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 750/15423 [38:46<12:38:36,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 750/15423 [38:46<12:38:36,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 751/15423 [38:47<12:37:56,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 751/15423 [38:47<12:37:56,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 752/15423 [38:49<12:37:25,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 752/15423 [38:49<12:37:25,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 753/15423 [38:53<12:37:46,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   5%| | 753/15423 [38:53<12:37:46,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 754/15423 [38:55<12:37:25,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 754/15423 [38:55<12:37:25,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 755/15423 [38:59<12:37:26,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   5%| | 755/15423 [38:59<12:37:26,  3.10s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 756/15423 [39:03<12:37:47,  3.10s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 756/15423 [39:03<12:37:47,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 757/15423 [39:05<12:37:17,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 757/15423 [39:05<12:37:17,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 758/15423 [39:07<12:36:57,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   5%| | 758/15423 [39:07<12:36:57,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 759/15423 [39:10<12:36:49,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 759/15423 [39:10<12:36:49,  3.10s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 760/15423 [39:12<12:36:30,  3.10s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 760/15423 [39:12<12:36:30,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 761/15423 [39:16<12:36:40,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   5%| | 761/15423 [39:16<12:36:40,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 762/15423 [39:20<12:36:52,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 762/15423 [39:20<12:36:52,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 763/15423 [39:23<12:36:43,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 763/15423 [39:23<12:36:43,  3.10s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 764/15423 [39:25<12:36:23,  3.10s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 764/15423 [39:25<12:36:23,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 765/15423 [39:28<12:36:13,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 765/15423 [39:28<12:36:13,  3.10s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 766/15423 [39:32<12:36:33,  3.10s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 766/15423 [39:32<12:36:33,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 767/15423 [39:36<12:36:44,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 767/15423 [39:36<12:36:44,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 768/15423 [39:46<12:39:07,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 768/15423 [39:46<12:39:07,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 769/15423 [39:49<12:38:47,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 769/15423 [39:49<12:38:47,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 770/15423 [39:53<12:39:06,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   5%| | 770/15423 [39:53<12:39:06,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 771/15423 [39:56<12:39:08,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 771/15423 [39:56<12:39:08,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 772/15423 [40:00<12:39:09,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 772/15423 [40:00<12:39:09,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 773/15423 [40:01<12:38:31,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 773/15423 [40:01<12:38:31,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 774/15423 [40:04<12:38:32,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 774/15423 [40:04<12:38:32,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 775/15423 [40:05<12:37:53,  3.10s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 775/15423 [40:05<12:37:53,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 776/15423 [40:09<12:38:00,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 776/15423 [40:09<12:38:00,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 777/15423 [40:11<12:37:32,  3.10s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 777/15423 [40:11<12:37:32,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 778/15423 [40:14<12:37:32,  3.10s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   5%| | 778/15423 [40:14<12:37:32,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 779/15423 [40:16<12:37:13,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 779/15423 [40:16<12:37:13,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 780/15423 [40:19<12:37:03,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 780/15423 [40:19<12:37:03,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 781/15423 [40:23<12:37:23,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 781/15423 [40:23<12:37:23,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 782/15423 [40:27<12:37:23,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 782/15423 [40:27<12:37:23,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 783/15423 [40:31<12:37:43,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 783/15423 [40:31<12:37:43,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 784/15423 [40:32<12:37:04,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 784/15423 [40:32<12:37:04,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 785/15423 [40:35<12:36:55,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 785/15423 [40:35<12:36:55,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 786/15423 [40:37<12:36:37,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 786/15423 [40:37<12:36:37,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 787/15423 [40:40<12:36:18,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   5%| | 787/15423 [40:40<12:36:18,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 788/15423 [40:44<12:36:39,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 788/15423 [40:44<12:36:39,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 789/15423 [40:46<12:36:12,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 789/15423 [40:46<12:36:12,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 790/15423 [40:49<12:36:03,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   5%| | 790/15423 [40:49<12:36:03,  3.10s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 791/15423 [40:51<12:35:53,  3.10s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 791/15423 [40:51<12:35:53,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 792/15423 [40:56<12:36:15,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 792/15423 [40:56<12:36:15,  3.10s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 793/15423 [40:58<12:35:57,  3.10s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 793/15423 [40:58<12:35:57,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 794/15423 [41:00<12:35:39,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 794/15423 [41:00<12:35:39,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 795/15423 [41:02<12:35:01,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 795/15423 [41:02<12:35:01,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 796/15423 [41:04<12:34:52,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 796/15423 [41:04<12:34:52,  3.10s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 797/15423 [41:09<12:35:12,  3.10s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 797/15423 [41:09<12:35:12,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 798/15423 [41:13<12:35:23,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 798/15423 [41:13<12:35:23,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 799/15423 [41:14<12:34:46,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 799/15423 [41:14<12:34:46,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 800/15423 [41:33<12:39:41,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 800/15423 [41:33<12:39:41,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
-      "  warnings.warn(\r\n",
-      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
-      "  warnings.warn(\r\n",
-      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
-      "  warnings.warn(\r\n",
-      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
-      "  warnings.warn(\r\n",
-      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
-      "  warnings.warn(\r\n",
-      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
-      "  warnings.warn(\r\n",
-      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
-      "  warnings.warn(\r\n",
-      "/usr/local/lib/python3.11/dist-packages/torch/nn/modules/module.py:1802: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.\r\n",
-      "  warnings.warn(\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 801/15423 [41:50<12:43:48,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 801/15423 [41:50<12:43:48,  3.13s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 802/15423 [41:53<12:43:38,  3.13s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 802/15423 [41:53<12:43:38,  3.13s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 803/15423 [41:54<12:43:08,  3.13s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 803/15423 [41:54<12:43:08,  3.13s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 804/15423 [41:56<12:42:39,  3.13s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   5%| | 804/15423 [41:56<12:42:39,  3.13s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 805/15423 [42:00<12:42:48,  3.13s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   5%| | 805/15423 [42:00<12:42:48,  3.13s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 806/15423 [42:01<12:42:09,  3.13s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 806/15423 [42:01<12:42:09,  3.13s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 807/15423 [42:03<12:41:49,  3.13s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 807/15423 [42:03<12:41:49,  3.13s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 808/15423 [42:08<12:42:08,  3.13s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 808/15423 [42:08<12:42:08,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 809/15423 [42:08<12:41:21,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 809/15423 [42:08<12:41:21,  3.13s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 810/15423 [42:11<12:41:02,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 810/15423 [42:11<12:41:02,  3.12s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 811/15423 [42:15<12:41:23,  3.13s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 811/15423 [42:15<12:41:23,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 812/15423 [42:19<12:41:32,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 812/15423 [42:19<12:41:32,  3.13s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 813/15423 [42:22<12:41:33,  3.13s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 813/15423 [42:22<12:41:33,  3.13s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 814/15423 [42:24<12:41:14,  3.13s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 814/15423 [42:24<12:41:14,  3.13s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 815/15423 [42:26<12:40:46,  3.12s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 815/15423 [42:26<12:40:46,  3.12s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 816/15423 [42:29<12:40:36,  3.12s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   5%| | 816/15423 [42:29<12:40:36,  3.12s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 817/15423 [42:33<12:40:54,  3.13s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 817/15423 [42:33<12:40:54,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 818/15423 [42:38<12:41:13,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 818/15423 [42:38<12:41:13,  3.13s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 819/15423 [42:42<12:41:32,  3.13s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 819/15423 [42:42<12:41:32,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 820/15423 [42:45<12:41:23,  3.13s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 820/15423 [42:45<12:41:23,  3.13s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 821/15423 [42:48<12:41:14,  3.13s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 821/15423 [42:48<12:41:14,  3.13s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 822/15423 [42:51<12:41:13,  3.13s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 822/15423 [42:51<12:41:13,  3.13s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 823/15423 [42:52<12:40:37,  3.13s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 823/15423 [42:52<12:40:37,  3.13s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 824/15423 [42:53<12:40:00,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 824/15423 [42:53<12:40:00,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 825/15423 [42:54<12:39:23,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 825/15423 [42:54<12:39:23,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 826/15423 [42:56<12:38:55,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 826/15423 [42:56<12:38:55,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 827/15423 [43:01<12:39:14,  3.12s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   5%| | 827/15423 [43:01<12:39:14,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 828/15423 [43:05<12:39:32,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 828/15423 [43:05<12:39:32,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 829/15423 [43:09<12:39:40,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 829/15423 [43:09<12:39:40,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 830/15423 [43:09<12:38:54,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 830/15423 [43:09<12:38:54,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 831/15423 [43:11<12:38:27,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 831/15423 [43:11<12:38:27,  3.12s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 832/15423 [43:19<12:39:55,  3.12s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   5%| | 832/15423 [43:19<12:39:55,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 833/15423 [43:23<12:39:56,  3.13s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   5%| | 833/15423 [43:23<12:39:56,  3.13s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 834/15423 [43:25<12:39:38,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 834/15423 [43:25<12:39:38,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 835/15423 [43:28<12:39:29,  3.12s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   5%| | 835/15423 [43:28<12:39:29,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 836/15423 [43:31<12:39:29,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 836/15423 [43:31<12:39:29,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 837/15423 [43:34<12:39:21,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   5%| | 837/15423 [43:34<12:39:21,  3.12s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 838/15423 [43:38<12:39:39,  3.13s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   5%| | 838/15423 [43:38<12:39:39,  3.13s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 839/15423 [43:39<12:38:54,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 839/15423 [43:39<12:38:54,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 840/15423 [43:40<12:38:17,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 840/15423 [43:40<12:38:17,  3.12s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 841/15423 [43:44<12:38:18,  3.12s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   5%| | 841/15423 [43:44<12:38:18,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 842/15423 [43:45<12:37:42,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 842/15423 [43:45<12:37:42,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 843/15423 [43:46<12:37:14,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 843/15423 [43:46<12:37:14,  3.12s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 844/15423 [43:49<12:36:57,  3.12s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   5%| | 844/15423 [43:49<12:36:57,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 845/15423 [43:53<12:37:07,  3.12s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   5%| | 845/15423 [43:53<12:37:07,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 846/15423 [43:53<12:36:22,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   5%| | 846/15423 [43:53<12:36:22,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 847/15423 [43:58<12:36:40,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   5%| | 847/15423 [43:58<12:36:40,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   5%| | 848/15423 [43:58<12:35:55,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   5%| | 848/15423 [43:58<12:35:55,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 849/15423 [44:02<12:36:04,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 849/15423 [44:02<12:36:04,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 850/15423 [44:03<12:35:29,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 850/15423 [44:03<12:35:29,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 851/15423 [44:07<12:35:30,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 851/15423 [44:07<12:35:30,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 852/15423 [44:07<12:34:45,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   6%| | 852/15423 [44:07<12:34:45,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 853/15423 [44:10<12:34:28,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 853/15423 [44:10<12:34:28,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 854/15423 [44:10<12:33:43,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 854/15423 [44:10<12:33:43,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 855/15423 [44:14<12:33:53,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 855/15423 [44:14<12:33:53,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 856/15423 [44:17<12:33:45,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 856/15423 [44:17<12:33:45,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 857/15423 [44:19<12:33:28,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 857/15423 [44:19<12:33:28,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 858/15423 [44:23<12:33:39,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 858/15423 [44:23<12:33:39,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 859/15423 [44:25<12:33:13,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 859/15423 [44:25<12:33:13,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 860/15423 [44:26<12:32:29,  3.10s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 860/15423 [44:26<12:32:29,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 861/15423 [44:28<12:32:04,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 861/15423 [44:28<12:32:04,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 862/15423 [44:28<12:31:20,  3.10s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 862/15423 [44:28<12:31:20,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 863/15423 [44:32<12:31:30,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 863/15423 [44:32<12:31:30,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 864/15423 [44:55<12:37:06,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 864/15423 [44:55<12:37:06,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 865/15423 [44:56<12:36:22,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 865/15423 [44:56<12:36:22,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 866/15423 [44:59<12:36:13,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 866/15423 [44:59<12:36:13,  3.12s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 867/15423 [45:03<12:36:31,  3.12s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 867/15423 [45:03<12:36:31,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 868/15423 [45:08<12:36:49,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 868/15423 [45:08<12:36:49,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 869/15423 [45:12<12:37:07,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 869/15423 [45:12<12:37:07,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 870/15423 [45:14<12:36:49,  3.12s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   6%| | 870/15423 [45:14<12:36:49,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 871/15423 [45:17<12:36:49,  3.12s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 871/15423 [45:17<12:36:49,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 872/15423 [45:20<12:36:42,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   6%| | 872/15423 [45:20<12:36:42,  3.12s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 873/15423 [45:22<12:36:07,  3.12s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 873/15423 [45:22<12:36:07,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 874/15423 [45:23<12:35:42,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 874/15423 [45:23<12:35:42,  3.12s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 875/15423 [45:28<12:35:59,  3.12s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 875/15423 [45:28<12:35:59,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 876/15423 [45:32<12:36:17,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 876/15423 [45:32<12:36:17,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 877/15423 [45:34<12:35:51,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 877/15423 [45:34<12:35:51,  3.12s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 878/15423 [45:36<12:35:25,  3.12s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 878/15423 [45:36<12:35:25,  3.12s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 879/15423 [45:38<12:35:17,  3.12s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 879/15423 [45:38<12:35:17,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 880/15423 [45:41<12:35:00,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 880/15423 [45:41<12:35:00,  3.11s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 881/15423 [45:45<12:35:17,  3.12s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 881/15423 [45:45<12:35:17,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 882/15423 [45:49<12:35:26,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 882/15423 [45:49<12:35:26,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 883/15423 [45:53<12:35:35,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 883/15423 [45:53<12:35:35,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 884/15423 [45:56<12:35:43,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 884/15423 [45:56<12:35:43,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 885/15423 [45:59<12:35:35,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 885/15423 [45:59<12:35:35,  3.12s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 886/15423 [46:01<12:35:01,  3.12s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 886/15423 [46:01<12:35:01,  3.12s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 887/15423 [46:01<12:34:18,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 887/15423 [46:01<12:34:18,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 888/15423 [46:03<12:34:00,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 888/15423 [46:03<12:34:00,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 889/15423 [46:08<12:34:17,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 889/15423 [46:08<12:34:17,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 890/15423 [46:12<12:34:26,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 890/15423 [46:12<12:34:26,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 891/15423 [46:12<12:33:43,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 891/15423 [46:12<12:33:43,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 892/15423 [46:16<12:33:52,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 892/15423 [46:16<12:33:52,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 893/15423 [46:18<12:33:27,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 893/15423 [46:18<12:33:27,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 894/15423 [46:21<12:33:18,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 894/15423 [46:21<12:33:18,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 895/15423 [46:22<12:32:44,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   6%| | 895/15423 [46:22<12:32:44,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 896/15423 [46:32<12:34:27,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 896/15423 [46:32<12:34:27,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 897/15423 [46:33<12:33:53,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 897/15423 [46:33<12:33:53,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 898/15423 [46:34<12:33:27,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 898/15423 [46:34<12:33:27,  3.11s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 899/15423 [46:37<12:33:11,  3.11s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 899/15423 [46:37<12:33:11,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 900/15423 [46:38<12:32:45,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 900/15423 [46:38<12:32:45,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 901/15423 [46:42<12:32:46,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 901/15423 [46:42<12:32:46,  3.11s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 902/15423 [46:44<12:32:21,  3.11s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   6%| | 902/15423 [46:44<12:32:21,  3.11s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 903/15423 [46:44<12:31:39,  3.11s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 903/15423 [46:44<12:31:39,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 904/15423 [46:49<12:31:57,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 904/15423 [46:49<12:31:57,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 905/15423 [46:49<12:31:15,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 905/15423 [46:49<12:31:15,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 906/15423 [46:52<12:31:07,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 906/15423 [46:52<12:31:07,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 907/15423 [46:56<12:31:15,  3.11s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 907/15423 [46:56<12:31:15,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 908/15423 [46:58<12:30:58,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 908/15423 [46:58<12:30:58,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 909/15423 [47:00<12:30:42,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 909/15423 [47:00<12:30:42,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 910/15423 [47:02<12:30:08,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 910/15423 [47:02<12:30:08,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 911/15423 [47:05<12:30:16,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 911/15423 [47:05<12:30:16,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 912/15423 [47:08<12:30:08,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 912/15423 [47:08<12:30:08,  3.10s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 913/15423 [47:10<12:29:51,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 913/15423 [47:10<12:29:51,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 914/15423 [47:11<12:29:10,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 914/15423 [47:11<12:29:10,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 915/15423 [47:13<12:28:45,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 915/15423 [47:13<12:28:45,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 916/15423 [47:15<12:28:29,  3.10s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 916/15423 [47:15<12:28:29,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 917/15423 [47:17<12:28:12,  3.09s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 917/15423 [47:17<12:28:12,  3.09s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 918/15423 [47:19<12:27:39,  3.09s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 918/15423 [47:19<12:27:39,  3.09s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 919/15423 [47:22<12:27:40,  3.09s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 919/15423 [47:22<12:27:40,  3.09s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 920/15423 [47:23<12:27:07,  3.09s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   6%| | 920/15423 [47:23<12:27:07,  3.09s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 921/15423 [47:26<12:26:59,  3.09s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 921/15423 [47:26<12:26:59,  3.09s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 922/15423 [47:29<12:26:52,  3.09s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 922/15423 [47:29<12:26:52,  3.09s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 923/15423 [47:32<12:26:53,  3.09s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 923/15423 [47:32<12:26:53,  3.09s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 924/15423 [47:35<12:26:53,  3.09s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   6%| | 924/15423 [47:35<12:26:53,  3.09s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 925/15423 [47:40<12:27:10,  3.09s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 925/15423 [47:40<12:27:10,  3.09s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 926/15423 [47:40<12:26:29,  3.09s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 926/15423 [47:40<12:26:29,  3.09s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 927/15423 [47:42<12:25:56,  3.09s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 927/15423 [47:42<12:25:56,  3.09s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 928/15423 [48:13<12:33:18,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 928/15423 [48:13<12:33:18,  3.12s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 929/15423 [48:15<12:33:02,  3.12s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   6%| | 929/15423 [48:15<12:33:02,  3.12s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 930/15423 [48:16<12:32:21,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 930/15423 [48:16<12:32:21,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 931/15423 [48:20<12:32:30,  3.12s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 931/15423 [48:20<12:32:30,  3.12s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 932/15423 [48:24<12:32:47,  3.12s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 932/15423 [48:24<12:32:47,  3.12s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 933/15423 [48:26<12:32:14,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   6%| | 933/15423 [48:26<12:32:14,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 934/15423 [48:28<12:31:58,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 934/15423 [48:28<12:31:58,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 935/15423 [48:30<12:31:41,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 935/15423 [48:30<12:31:41,  3.11s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 936/15423 [48:31<12:31:09,  3.11s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 936/15423 [48:31<12:31:09,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 937/15423 [48:32<12:30:28,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 937/15423 [48:32<12:30:28,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 938/15423 [48:36<12:30:44,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 938/15423 [48:36<12:30:44,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 939/15423 [48:38<12:30:12,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   6%| | 939/15423 [48:38<12:30:12,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 940/15423 [48:40<12:30:04,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 940/15423 [48:40<12:30:04,  3.11s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 941/15423 [48:42<12:29:40,  3.11s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 941/15423 [48:42<12:29:40,  3.11s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 942/15423 [48:44<12:29:15,  3.10s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 942/15423 [48:44<12:29:15,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 943/15423 [48:48<12:29:32,  3.11s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 943/15423 [48:48<12:29:32,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 944/15423 [48:52<12:29:33,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   6%| | 944/15423 [48:52<12:29:33,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 945/15423 [48:56<12:29:43,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 945/15423 [48:56<12:29:43,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 946/15423 [48:59<12:29:44,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 946/15423 [48:59<12:29:44,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 947/15423 [49:01<12:29:29,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 947/15423 [49:01<12:29:29,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 948/15423 [49:06<12:29:46,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 948/15423 [49:06<12:29:46,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 949/15423 [49:10<12:29:54,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   6%| | 949/15423 [49:10<12:29:54,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 950/15423 [49:11<12:29:30,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 950/15423 [49:11<12:29:30,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 951/15423 [49:15<12:29:38,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 951/15423 [49:15<12:29:38,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 952/15423 [49:17<12:29:22,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 952/15423 [49:17<12:29:22,  3.11s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 953/15423 [49:22<12:29:38,  3.11s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 953/15423 [49:22<12:29:38,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 954/15423 [49:26<12:29:54,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   6%| | 954/15423 [49:26<12:29:54,  3.11s/it, v_num=ufwn, train/loss=6."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 955/15423 [49:28<12:29:38,  3.11s/it, v_num=ufwn, train/loss=6.\r",
-      "Epoch 0:   6%| | 955/15423 [49:28<12:29:38,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 956/15423 [49:30<12:29:15,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 956/15423 [49:30<12:29:15,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 957/15423 [49:31<12:28:43,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 957/15423 [49:31<12:28:43,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 958/15423 [49:35<12:28:51,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 958/15423 [49:35<12:28:51,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 959/15423 [49:38<12:28:43,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 959/15423 [49:38<12:28:43,  3.11s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 960/15423 [49:45<12:29:39,  3.11s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 960/15423 [49:45<12:29:39,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 961/15423 [49:47<12:29:15,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 961/15423 [49:47<12:29:15,  3.11s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 962/15423 [49:49<12:29:00,  3.11s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 962/15423 [49:49<12:29:00,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 963/15423 [49:53<12:29:16,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 963/15423 [49:53<12:29:16,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 964/15423 [49:57<12:29:24,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 964/15423 [49:57<12:29:24,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 965/15423 [50:00<12:29:17,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 965/15423 [50:00<12:29:17,  3.11s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 966/15423 [50:02<12:29:02,  3.11s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 966/15423 [50:02<12:29:02,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 967/15423 [50:04<12:28:30,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 967/15423 [50:04<12:28:30,  3.11s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 968/15423 [50:04<12:27:51,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 968/15423 [50:04<12:27:51,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 969/15423 [50:06<12:27:27,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 969/15423 [50:06<12:27:27,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 970/15423 [50:11<12:27:44,  3.10s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 970/15423 [50:11<12:27:44,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 971/15423 [50:12<12:27:21,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 971/15423 [50:12<12:27:21,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 972/15423 [50:15<12:27:14,  3.10s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 972/15423 [50:15<12:27:14,  3.10s/it, v_num=ufwn, train/loss=4."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 973/15423 [50:20<12:27:30,  3.10s/it, v_num=ufwn, train/loss=4.\r",
-      "Epoch 0:   6%| | 973/15423 [50:20<12:27:30,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 974/15423 [50:22<12:27:15,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 974/15423 [50:22<12:27:15,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 975/15423 [50:23<12:26:44,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 975/15423 [50:23<12:26:44,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 976/15423 [50:24<12:26:13,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 976/15423 [50:24<12:26:13,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 977/15423 [50:27<12:25:58,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 977/15423 [50:27<12:25:58,  3.10s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 978/15423 [50:28<12:25:35,  3.10s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 978/15423 [50:28<12:25:35,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 979/15423 [50:33<12:25:52,  3.10s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 979/15423 [50:33<12:25:52,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 980/15423 [50:37<12:26:07,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 980/15423 [50:37<12:26:07,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 981/15423 [50:39<12:25:44,  3.10s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 981/15423 [50:39<12:25:44,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 982/15423 [50:41<12:25:21,  3.10s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 982/15423 [50:41<12:25:21,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 983/15423 [50:42<12:24:50,  3.09s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 983/15423 [50:42<12:24:50,  3.09s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 984/15423 [50:43<12:24:19,  3.09s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 984/15423 [50:43<12:24:19,  3.09s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 985/15423 [50:47<12:24:34,  3.09s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 985/15423 [50:47<12:24:34,  3.09s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 986/15423 [50:49<12:24:11,  3.09s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 986/15423 [50:49<12:24:11,  3.09s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 987/15423 [50:52<12:24:04,  3.09s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 987/15423 [50:52<12:24:04,  3.09s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 988/15423 [50:56<12:24:11,  3.09s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 988/15423 [50:56<12:24:11,  3.09s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 989/15423 [50:57<12:23:40,  3.09s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 989/15423 [50:57<12:23:40,  3.09s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 990/15423 [50:58<12:23:01,  3.09s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 990/15423 [50:58<12:23:01,  3.09s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 991/15423 [50:58<12:22:23,  3.09s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 991/15423 [50:58<12:22:23,  3.09s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 992/15423 [51:22<12:27:23,  3.11s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 992/15423 [51:22<12:27:23,  3.11s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 993/15423 [51:26<12:27:30,  3.11s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 993/15423 [51:26<12:27:30,  3.11s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 994/15423 [51:28<12:27:14,  3.11s/it, v_num=ufwn, train/loss=5.\r",
-      "Epoch 0:   6%| | 994/15423 [51:28<12:27:14,  3.11s/it, v_num=ufwn, train/loss=2."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 995/15423 [51:30<12:26:59,  3.11s/it, v_num=ufwn, train/loss=2.\r",
-      "Epoch 0:   6%| | 995/15423 [51:30<12:26:59,  3.11s/it, v_num=ufwn, train/loss=3."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 996/15423 [51:32<12:26:28,  3.10s/it, v_num=ufwn, train/loss=3.\r",
-      "Epoch 0:   6%| | 996/15423 [51:32<12:26:28,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 997/15423 [51:33<12:26:05,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 997/15423 [51:33<12:26:05,  3.10s/it, v_num=ufwn, train/loss=0."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 998/15423 [51:35<12:25:43,  3.10s/it, v_num=ufwn, train/loss=0.\r",
-      "Epoch 0:   6%| | 998/15423 [51:35<12:25:43,  3.10s/it, v_num=ufwn, train/loss=1."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 999/15423 [51:38<12:25:43,  3.10s/it, v_num=ufwn, train/loss=1.\r",
-      "Epoch 0:   6%| | 999/15423 [51:38<12:25:43,  3.10s/it, v_num=ufwn, train/loss=5."
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 1000/15423 [51:42<12:25:43,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   6%| | 1000/15423 [51:42<12:25:43,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 1001/15423 [51:44<12:25:29,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   6%| | 1001/15423 [51:44<12:25:29,  3.10s/it, v_num=ufwn, train/loss=2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   6%| | 1002/15423 [51:47<12:25:22,  3.10s/it, v_num=ufwn, train/loss=2\r",
-      "Epoch 0:   6%| | 1002/15423 [51:47<12:25:22,  3.10s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1003/15423 [51:51<12:25:30,  3.10s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1003/15423 [51:51<12:25:30,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1004/15423 [51:54<12:25:30,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1004/15423 [51:54<12:25:30,  3.10s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1005/15423 [51:56<12:25:15,  3.10s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1005/15423 [51:56<12:25:15,  3.10s/it, v_num=ufwn, train/loss=2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1006/15423 [51:58<12:24:45,  3.10s/it, v_num=ufwn, train/loss=2\r",
-      "Epoch 0:   7%| | 1006/15423 [51:58<12:24:45,  3.10s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1007/15423 [52:00<12:24:30,  3.10s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1007/15423 [52:00<12:24:30,  3.10s/it, v_num=ufwn, train/loss=2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1008/15423 [52:04<12:24:45,  3.10s/it, v_num=ufwn, train/loss=2\r",
-      "Epoch 0:   7%| | 1008/15423 [52:04<12:24:45,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1009/15423 [52:09<12:25:00,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1009/15423 [52:09<12:25:00,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1010/15423 [52:09<12:24:23,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1010/15423 [52:09<12:24:23,  3.10s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1011/15423 [52:11<12:24:01,  3.10s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1011/15423 [52:11<12:24:01,  3.10s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1012/15423 [52:13<12:23:46,  3.10s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1012/15423 [52:13<12:23:46,  3.10s/it, v_num=ufwn, train/loss=2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1013/15423 [52:18<12:24:01,  3.10s/it, v_num=ufwn, train/loss=2\r",
-      "Epoch 0:   7%| | 1013/15423 [52:18<12:24:01,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1014/15423 [52:19<12:23:39,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1014/15423 [52:19<12:23:39,  3.10s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1015/15423 [52:22<12:23:31,  3.10s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1015/15423 [52:22<12:23:31,  3.10s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1016/15423 [52:26<12:23:38,  3.10s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1016/15423 [52:26<12:23:38,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1017/15423 [52:28<12:23:22,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1017/15423 [52:28<12:23:22,  3.10s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1018/15423 [52:29<12:22:44,  3.09s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1018/15423 [52:29<12:22:44,  3.09s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1019/15423 [52:30<12:22:07,  3.09s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1019/15423 [52:30<12:22:07,  3.09s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1020/15423 [52:34<12:22:22,  3.09s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1020/15423 [52:34<12:22:22,  3.09s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1021/15423 [52:38<12:22:37,  3.09s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1021/15423 [52:38<12:22:37,  3.09s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1022/15423 [52:40<12:22:14,  3.09s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1022/15423 [52:40<12:22:14,  3.09s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1023/15423 [52:43<12:22:06,  3.09s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1023/15423 [52:43<12:22:06,  3.09s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1024/15423 [52:55<12:24:17,  3.10s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1024/15423 [52:55<12:24:17,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1025/15423 [52:59<12:24:25,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1025/15423 [52:59<12:24:25,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1026/15423 [53:01<12:24:02,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1026/15423 [53:01<12:24:02,  3.10s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1027/15423 [53:04<12:24:03,  3.10s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1027/15423 [53:04<12:24:03,  3.10s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1028/15423 [53:05<12:23:26,  3.10s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1028/15423 [53:05<12:23:26,  3.10s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1029/15423 [53:06<12:22:49,  3.10s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1029/15423 [53:06<12:22:50,  3.10s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1030/15423 [53:09<12:22:43,  3.10s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1030/15423 [53:09<12:22:43,  3.10s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1031/15423 [53:12<12:22:50,  3.10s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1031/15423 [53:12<12:22:50,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1032/15423 [53:15<12:22:43,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1032/15423 [53:15<12:22:43,  3.10s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1033/15423 [53:16<12:22:14,  3.09s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1033/15423 [53:16<12:22:14,  3.09s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1034/15423 [53:19<12:22:07,  3.09s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1034/15423 [53:19<12:22:07,  3.09s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1035/15423 [53:23<12:22:07,  3.09s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1035/15423 [53:23<12:22:07,  3.09s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1036/15423 [53:25<12:21:59,  3.09s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1036/15423 [53:25<12:21:59,  3.09s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1037/15423 [53:27<12:21:38,  3.09s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1037/15423 [53:27<12:21:38,  3.09s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1038/15423 [53:29<12:21:16,  3.09s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1038/15423 [53:29<12:21:16,  3.09s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1039/15423 [53:30<12:20:47,  3.09s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1039/15423 [53:30<12:20:47,  3.09s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1040/15423 [53:33<12:20:47,  3.09s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1040/15423 [53:33<12:20:47,  3.09s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1041/15423 [53:35<12:20:25,  3.09s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1041/15423 [53:35<12:20:25,  3.09s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1042/15423 [53:37<12:20:03,  3.09s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1042/15423 [53:37<12:20:03,  3.09s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1043/15423 [53:39<12:19:48,  3.09s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1043/15423 [53:39<12:19:48,  3.09s/it, v_num=ufwn, train/loss=2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1044/15423 [53:41<12:19:34,  3.09s/it, v_num=ufwn, train/loss=2\r",
-      "Epoch 0:   7%| | 1044/15423 [53:41<12:19:34,  3.09s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1045/15423 [53:43<12:19:13,  3.08s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1045/15423 [53:43<12:19:13,  3.08s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1046/15423 [53:45<12:18:51,  3.08s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1046/15423 [53:45<12:18:51,  3.08s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1047/15423 [53:48<12:18:45,  3.08s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1047/15423 [53:48<12:18:45,  3.08s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1048/15423 [53:49<12:18:23,  3.08s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1048/15423 [53:49<12:18:23,  3.08s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1049/15423 [53:52<12:18:16,  3.08s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1049/15423 [53:52<12:18:16,  3.08s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1050/15423 [53:56<12:18:23,  3.08s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1050/15423 [53:56<12:18:23,  3.08s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1051/15423 [54:00<12:18:38,  3.08s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1051/15423 [54:00<12:18:38,  3.08s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1052/15423 [54:05<12:18:54,  3.08s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1052/15423 [54:05<12:18:54,  3.08s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1053/15423 [54:06<12:18:18,  3.08s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1053/15423 [54:06<12:18:18,  3.08s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1054/15423 [54:08<12:18:04,  3.08s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1054/15423 [54:08<12:18:04,  3.08s/it, v_num=ufwn, train/loss=2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1055/15423 [54:12<12:18:11,  3.08s/it, v_num=ufwn, train/loss=2\r",
-      "Epoch 0:   7%| | 1055/15423 [54:12<12:18:11,  3.08s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1056/15423 [54:32<12:21:58,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1056/15423 [54:32<12:21:58,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1057/15423 [54:34<12:21:44,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1057/15423 [54:34<12:21:44,  3.10s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1058/15423 [54:36<12:21:29,  3.10s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1058/15423 [54:36<12:21:29,  3.10s/it, v_num=ufwn, train/loss=2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1059/15423 [54:38<12:21:08,  3.10s/it, v_num=ufwn, train/loss=2\r",
-      "Epoch 0:   7%| | 1059/15423 [54:38<12:21:08,  3.10s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1060/15423 [54:41<12:21:08,  3.10s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1060/15423 [54:41<12:21:08,  3.10s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1061/15423 [54:42<12:20:32,  3.09s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1061/15423 [54:42<12:20:32,  3.09s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1062/15423 [54:45<12:20:33,  3.09s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1062/15423 [54:45<12:20:33,  3.09s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1063/15423 [54:50<12:20:46,  3.10s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1063/15423 [54:50<12:20:46,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1064/15423 [54:54<12:20:53,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1064/15423 [54:54<12:20:53,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1065/15423 [54:56<12:20:39,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1065/15423 [54:56<12:20:39,  3.10s/it, v_num=ufwn, train/loss=2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1066/15423 [54:59<12:20:31,  3.09s/it, v_num=ufwn, train/loss=2\r",
-      "Epoch 0:   7%| | 1066/15423 [54:59<12:20:31,  3.09s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1067/15423 [55:00<12:20:02,  3.09s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1067/15423 [55:00<12:20:02,  3.09s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1068/15423 [55:04<12:20:17,  3.09s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1068/15423 [55:04<12:20:17,  3.09s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1069/15423 [55:06<12:19:55,  3.09s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1069/15423 [55:06<12:19:55,  3.09s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1070/15423 [55:08<12:19:42,  3.09s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1070/15423 [55:08<12:19:42,  3.09s/it, v_num=ufwn, train/loss=2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1071/15423 [55:11<12:19:42,  3.09s/it, v_num=ufwn, train/loss=2\r",
-      "Epoch 0:   7%| | 1071/15423 [55:11<12:19:42,  3.09s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1072/15423 [55:13<12:19:20,  3.09s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1072/15423 [55:13<12:19:20,  3.09s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1073/15423 [55:17<12:19:27,  3.09s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1073/15423 [55:17<12:19:27,  3.09s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1074/15423 [55:21<12:19:41,  3.09s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1074/15423 [55:21<12:19:41,  3.09s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1075/15423 [55:23<12:19:20,  3.09s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1075/15423 [55:23<12:19:20,  3.09s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1076/15423 [55:25<12:19:06,  3.09s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1076/15423 [55:25<12:19:06,  3.09s/it, v_num=ufwn, train/loss=2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1077/15423 [55:29<12:19:14,  3.09s/it, v_num=ufwn, train/loss=2\r",
-      "Epoch 0:   7%| | 1077/15423 [55:29<12:19:14,  3.09s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1078/15423 [55:30<12:18:45,  3.09s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1078/15423 [55:30<12:18:45,  3.09s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1079/15423 [55:35<12:18:59,  3.09s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1079/15423 [55:35<12:19:00,  3.09s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1080/15423 [55:37<12:18:38,  3.09s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1080/15423 [55:37<12:18:38,  3.09s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1081/15423 [55:39<12:18:32,  3.09s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1081/15423 [55:39<12:18:32,  3.09s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1082/15423 [55:43<12:18:39,  3.09s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1082/15423 [55:43<12:18:39,  3.09s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1083/15423 [55:45<12:18:11,  3.09s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1083/15423 [55:45<12:18:11,  3.09s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1084/15423 [55:45<12:17:36,  3.09s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1084/15423 [55:45<12:17:36,  3.09s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1085/15423 [55:49<12:17:36,  3.09s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1085/15423 [55:49<12:17:36,  3.09s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1086/15423 [55:49<12:17:01,  3.08s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1086/15423 [55:49<12:17:01,  3.08s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1087/15423 [55:50<12:16:27,  3.08s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1087/15423 [55:50<12:16:27,  3.08s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1088/15423 [56:12<12:20:29,  3.10s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1088/15423 [56:12<12:20:29,  3.10s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1089/15423 [56:13<12:20:08,  3.10s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1089/15423 [56:13<12:20:08,  3.10s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1090/15423 [56:15<12:19:47,  3.10s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1090/15423 [56:15<12:19:47,  3.10s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1091/15423 [56:18<12:19:40,  3.10s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1091/15423 [56:18<12:19:40,  3.10s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1092/15423 [56:21<12:19:40,  3.10s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1092/15423 [56:21<12:19:40,  3.10s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1093/15423 [56:23<12:19:19,  3.10s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1093/15423 [56:23<12:19:19,  3.10s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1094/15423 [56:24<12:18:44,  3.09s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1094/15423 [56:24<12:18:44,  3.09s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1095/15423 [56:28<12:18:58,  3.09s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1095/15423 [56:28<12:18:58,  3.09s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1096/15423 [56:29<12:18:30,  3.09s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1096/15423 [56:29<12:18:30,  3.09s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1097/15423 [56:34<12:18:44,  3.09s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1097/15423 [56:34<12:18:44,  3.09s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1098/15423 [56:36<12:18:30,  3.09s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1098/15423 [56:36<12:18:30,  3.09s/it, v_num=ufwn, train/loss=2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1099/15423 [56:40<12:18:43,  3.09s/it, v_num=ufwn, train/loss=2\r",
-      "Epoch 0:   7%| | 1099/15423 [56:40<12:18:43,  3.09s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1100/15423 [56:44<12:18:50,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1100/15423 [56:44<12:18:50,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1101/15423 [56:48<12:18:57,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1101/15423 [56:48<12:18:57,  3.10s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1102/15423 [56:49<12:18:30,  3.09s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1102/15423 [56:49<12:18:30,  3.09s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1103/15423 [56:51<12:18:09,  3.09s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1103/15423 [56:51<12:18:09,  3.09s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1104/15423 [56:55<12:18:22,  3.09s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1104/15423 [56:55<12:18:22,  3.09s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1105/15423 [56:58<12:18:15,  3.09s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1105/15423 [56:58<12:18:15,  3.09s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1106/15423 [57:01<12:18:15,  3.09s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1106/15423 [57:01<12:18:15,  3.09s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1107/15423 [57:06<12:18:28,  3.10s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1107/15423 [57:06<12:18:28,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1108/15423 [57:07<12:18:08,  3.09s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1108/15423 [57:07<12:18:08,  3.09s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1109/15423 [57:09<12:17:47,  3.09s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1109/15423 [57:09<12:17:47,  3.09s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1110/15423 [57:13<12:17:54,  3.09s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1110/15423 [57:13<12:17:54,  3.09s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1111/15423 [57:17<12:18:00,  3.09s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1111/15423 [57:17<12:18:00,  3.09s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1112/15423 [57:19<12:17:39,  3.09s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1112/15423 [57:19<12:17:39,  3.09s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1113/15423 [57:20<12:17:18,  3.09s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1113/15423 [57:20<12:17:18,  3.09s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1114/15423 [57:23<12:17:05,  3.09s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1114/15423 [57:23<12:17:05,  3.09s/it, v_num=ufwn, train/loss=2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1115/15423 [57:27<12:17:19,  3.09s/it, v_num=ufwn, train/loss=2\r",
-      "Epoch 0:   7%| | 1115/15423 [57:27<12:17:19,  3.09s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1116/15423 [57:31<12:17:25,  3.09s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1116/15423 [57:31<12:17:25,  3.09s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1117/15423 [57:34<12:17:26,  3.09s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1117/15423 [57:34<12:17:26,  3.09s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1118/15423 [57:36<12:17:06,  3.09s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1118/15423 [57:36<12:17:06,  3.09s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1119/15423 [57:40<12:17:13,  3.09s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1119/15423 [57:40<12:17:13,  3.09s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1120/15423 [57:53<12:19:20,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1120/15423 [57:53<12:19:20,  3.10s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1121/15423 [57:57<12:19:26,  3.10s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1121/15423 [57:57<12:19:26,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1122/15423 [58:00<12:19:27,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1122/15423 [58:00<12:19:27,  3.10s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1123/15423 [58:05<12:19:40,  3.10s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1123/15423 [58:05<12:19:40,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1124/15423 [58:08<12:19:40,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1124/15423 [58:08<12:19:40,  3.10s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1125/15423 [58:12<12:19:48,  3.10s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1125/15423 [58:12<12:19:48,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1126/15423 [58:16<12:19:54,  3.11s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1126/15423 [58:16<12:19:54,  3.11s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1127/15423 [58:20<12:20:01,  3.11s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1127/15423 [58:20<12:20:01,  3.11s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1128/15423 [58:21<12:19:27,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1128/15423 [58:21<12:19:27,  3.10s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1129/15423 [58:25<12:19:42,  3.10s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1129/15423 [58:25<12:19:42,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1130/15423 [58:26<12:19:08,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1130/15423 [58:26<12:19:08,  3.10s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1131/15423 [58:30<12:19:14,  3.10s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1131/15423 [58:30<12:19:14,  3.10s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1132/15423 [58:31<12:18:53,  3.10s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1132/15423 [58:31<12:18:53,  3.10s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1133/15423 [58:36<12:19:06,  3.10s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1133/15423 [58:36<12:19:06,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1134/15423 [58:40<12:19:19,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1134/15423 [58:40<12:19:19,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1135/15423 [58:42<12:19:06,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1135/15423 [58:42<12:19:06,  3.10s/it, v_num=ufwn, train/loss=2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1136/15423 [58:47<12:19:19,  3.10s/it, v_num=ufwn, train/loss=2\r",
-      "Epoch 0:   7%| | 1136/15423 [58:47<12:19:19,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1137/15423 [58:48<12:18:59,  3.10s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1137/15423 [58:48<12:18:59,  3.10s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1138/15423 [58:53<12:19:12,  3.10s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1138/15423 [58:53<12:19:12,  3.10s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1139/15423 [58:57<12:19:25,  3.11s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1139/15423 [58:57<12:19:25,  3.11s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1140/15423 [59:00<12:19:24,  3.11s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1140/15423 [59:00<12:19:24,  3.11s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1141/15423 [59:05<12:19:37,  3.11s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1141/15423 [59:05<12:19:37,  3.11s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1142/15423 [59:08<12:19:30,  3.11s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1142/15423 [59:08<12:19:30,  3.11s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1143/15423 [59:11<12:19:30,  3.11s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1143/15423 [59:11<12:19:30,  3.11s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1144/15423 [59:12<12:19:03,  3.11s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1144/15423 [59:12<12:19:03,  3.11s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1145/15423 [59:15<12:18:56,  3.11s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1145/15423 [59:15<12:18:56,  3.11s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1146/15423 [59:18<12:18:49,  3.10s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1146/15423 [59:18<12:18:49,  3.10s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1147/15423 [59:21<12:18:42,  3.10s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1147/15423 [59:21<12:18:42,  3.10s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1148/15423 [59:24<12:18:41,  3.10s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   7%| | 1148/15423 [59:24<12:18:41,  3.10s/it, v_num=ufwn, train/loss=4"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1149/15423 [59:28<12:18:54,  3.11s/it, v_num=ufwn, train/loss=4\r",
-      "Epoch 0:   7%| | 1149/15423 [59:28<12:18:54,  3.11s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1150/15423 [59:33<12:19:06,  3.11s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1150/15423 [59:33<12:19:06,  3.11s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1151/15423 [59:35<12:18:52,  3.11s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1151/15423 [59:35<12:18:53,  3.11s/it, v_num=ufwn, train/loss=2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1152/15423 [59:42<12:19:44,  3.11s/it, v_num=ufwn, train/loss=2\r",
-      "Epoch 0:   7%| | 1152/15423 [59:42<12:19:44,  3.11s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1153/15423 [59:44<12:19:23,  3.11s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1153/15423 [59:44<12:19:23,  3.11s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1154/15423 [59:48<12:19:29,  3.11s/it, v_num=ufwn, train/loss=0\r",
-      "Epoch 0:   7%| | 1154/15423 [59:48<12:19:29,  3.11s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1155/15423 [59:50<12:19:08,  3.11s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   7%| | 1155/15423 [59:50<12:19:08,  3.11s/it, v_num=ufwn, train/loss=1"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   7%| | 1156/15423 [59:52<12:19:01,  3.11s/it, v_num=ufwn, train/loss=1\r",
-      "Epoch 0:   7%| | 1156/15423 [59:52<12:19:01,  3.11s/it, v_num=ufwn, train/loss=3"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1157/15423 [59:56<12:19:06,  3.11s/it, v_num=ufwn, train/loss=3\r",
-      "Epoch 0:   8%| | 1157/15423 [59:56<12:19:06,  3.11s/it, v_num=ufwn, train/loss=5"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1158/15423 [59:58<12:18:52,  3.11s/it, v_num=ufwn, train/loss=5\r",
-      "Epoch 0:   8%| | 1158/15423 [59:58<12:18:52,  3.11s/it, v_num=ufwn, train/loss=2"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1159/15423 [59:59<12:18:19,  3.11s/it, v_num=ufwn, train/loss=2\r",
-      "Epoch 0:   8%| | 1159/15423 [59:59<12:18:19,  3.11s/it, v_num=ufwn, train/loss=0"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1160/15423 [1:00:03<12:18:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1160/15423 [1:00:03<12:18:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1161/15423 [1:00:05<12:18:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1161/15423 [1:00:05<12:18:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1162/15423 [1:00:07<12:17:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1162/15423 [1:00:07<12:17:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1163/15423 [1:00:10<12:17:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1163/15423 [1:00:10<12:17:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1164/15423 [1:00:11<12:17:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1164/15423 [1:00:11<12:17:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1165/15423 [1:00:12<12:16:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1165/15423 [1:00:12<12:16:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1166/15423 [1:00:16<12:17:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1166/15423 [1:00:16<12:17:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1167/15423 [1:00:18<12:16:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1167/15423 [1:00:18<12:16:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1168/15423 [1:00:18<12:16:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1168/15423 [1:00:18<12:16:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1169/15423 [1:00:19<12:15:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1169/15423 [1:00:19<12:15:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1170/15423 [1:00:22<12:15:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1170/15423 [1:00:22<12:15:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1171/15423 [1:00:24<12:15:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1171/15423 [1:00:24<12:15:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1172/15423 [1:00:28<12:15:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1172/15423 [1:00:28<12:15:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1173/15423 [1:00:31<12:15:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1173/15423 [1:00:31<12:15:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1174/15423 [1:00:35<12:15:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1174/15423 [1:00:35<12:15:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1175/15423 [1:00:38<12:15:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1175/15423 [1:00:38<12:15:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1176/15423 [1:00:42<12:15:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1176/15423 [1:00:42<12:15:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1177/15423 [1:00:46<12:15:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1177/15423 [1:00:46<12:15:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1178/15423 [1:00:48<12:15:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1178/15423 [1:00:48<12:15:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1179/15423 [1:00:51<12:15:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1179/15423 [1:00:51<12:15:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1180/15423 [1:00:56<12:15:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1180/15423 [1:00:56<12:15:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1181/15423 [1:00:57<12:15:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1181/15423 [1:00:57<12:15:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1182/15423 [1:00:58<12:14:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1182/15423 [1:00:58<12:14:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1183/15423 [1:01:02<12:14:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1183/15423 [1:01:02<12:14:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1184/15423 [1:01:27<12:19:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1184/15423 [1:01:27<12:19:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1185/15423 [1:01:31<12:19:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1185/15423 [1:01:31<12:19:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1186/15423 [1:01:32<12:18:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1186/15423 [1:01:32<12:18:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1187/15423 [1:01:35<12:18:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1187/15423 [1:01:35<12:18:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1188/15423 [1:01:35<12:18:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1188/15423 [1:01:35<12:18:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1189/15423 [1:01:38<12:17:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1189/15423 [1:01:38<12:17:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1190/15423 [1:01:39<12:17:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1190/15423 [1:01:39<12:17:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1191/15423 [1:01:40<12:16:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1191/15423 [1:01:40<12:16:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1192/15423 [1:01:42<12:16:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1192/15423 [1:01:42<12:16:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1193/15423 [1:01:43<12:16:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1193/15423 [1:01:43<12:16:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1194/15423 [1:01:44<12:15:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1194/15423 [1:01:44<12:15:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1195/15423 [1:01:46<12:15:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1195/15423 [1:01:46<12:15:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1196/15423 [1:01:48<12:15:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1196/15423 [1:01:48<12:15:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1197/15423 [1:01:51<12:15:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1197/15423 [1:01:51<12:15:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1198/15423 [1:01:52<12:14:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1198/15423 [1:01:52<12:14:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1199/15423 [1:01:53<12:14:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1199/15423 [1:01:53<12:14:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1200/15423 [1:01:57<12:14:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1200/15423 [1:01:57<12:14:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1201/15423 [1:02:02<12:14:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1201/15423 [1:02:02<12:14:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1202/15423 [1:02:03<12:14:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1202/15423 [1:02:03<12:14:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1203/15423 [1:02:07<12:14:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1203/15423 [1:02:07<12:14:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1204/15423 [1:02:09<12:14:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1204/15423 [1:02:09<12:14:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1205/15423 [1:02:11<12:13:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1205/15423 [1:02:11<12:13:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1206/15423 [1:02:14<12:13:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1206/15423 [1:02:14<12:13:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1207/15423 [1:02:16<12:13:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1207/15423 [1:02:16<12:13:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1208/15423 [1:02:18<12:13:13,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1208/15423 [1:02:18<12:13:13,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1209/15423 [1:02:19<12:12:48,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1209/15423 [1:02:19<12:12:48,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1210/15423 [1:02:24<12:12:59,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1210/15423 [1:02:24<12:12:59,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1211/15423 [1:02:27<12:13:05,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1211/15423 [1:02:27<12:13:05,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1212/15423 [1:02:31<12:13:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1212/15423 [1:02:31<12:13:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1213/15423 [1:02:35<12:13:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1213/15423 [1:02:35<12:13:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1214/15423 [1:02:40<12:13:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1214/15423 [1:02:40<12:13:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1215/15423 [1:02:43<12:13:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1215/15423 [1:02:43<12:13:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1216/15423 [1:03:09<12:17:58,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1216/15423 [1:03:09<12:17:58,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1217/15423 [1:03:14<12:18:10,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1217/15423 [1:03:14<12:18:10,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1218/15423 [1:03:18<12:18:15,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1218/15423 [1:03:18<12:18:15,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1219/15423 [1:03:18<12:17:44,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1219/15423 [1:03:18<12:17:44,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1220/15423 [1:03:20<12:17:24,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1220/15423 [1:03:20<12:17:24,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1221/15423 [1:03:23<12:17:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1221/15423 [1:03:23<12:17:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1222/15423 [1:03:26<12:17:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1222/15423 [1:03:26<12:17:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1223/15423 [1:03:28<12:17:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1223/15423 [1:03:28<12:17:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1224/15423 [1:03:32<12:17:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1224/15423 [1:03:32<12:17:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1225/15423 [1:03:35<12:17:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1225/15423 [1:03:35<12:17:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1226/15423 [1:03:36<12:16:29,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1226/15423 [1:03:36<12:16:29,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1227/15423 [1:03:38<12:16:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1227/15423 [1:03:38<12:16:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1228/15423 [1:03:39<12:15:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1228/15423 [1:03:39<12:15:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1229/15423 [1:03:41<12:15:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1229/15423 [1:03:41<12:15:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1230/15423 [1:03:45<12:15:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1230/15423 [1:03:45<12:15:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1231/15423 [1:03:47<12:15:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1231/15423 [1:03:47<12:15:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1232/15423 [1:03:49<12:15:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1232/15423 [1:03:49<12:15:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1233/15423 [1:03:51<12:14:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1233/15423 [1:03:51<12:14:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1234/15423 [1:03:54<12:14:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1234/15423 [1:03:54<12:14:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1235/15423 [1:03:56<12:14:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1235/15423 [1:03:56<12:14:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1236/15423 [1:03:57<12:14:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1236/15423 [1:03:57<12:14:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1237/15423 [1:04:00<12:13:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1237/15423 [1:04:00<12:13:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1238/15423 [1:04:00<12:13:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1238/15423 [1:04:00<12:13:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1239/15423 [1:04:03<12:13:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1239/15423 [1:04:03<12:13:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1240/15423 [1:04:05<12:13:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1240/15423 [1:04:05<12:13:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1241/15423 [1:04:08<12:13:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1241/15423 [1:04:08<12:13:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1242/15423 [1:04:12<12:13:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1242/15423 [1:04:12<12:13:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1243/15423 [1:04:13<12:12:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1243/15423 [1:04:13<12:12:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1244/15423 [1:04:16<12:12:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1244/15423 [1:04:16<12:12:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1245/15423 [1:04:18<12:12:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1245/15423 [1:04:18<12:12:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1246/15423 [1:04:21<12:12:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1246/15423 [1:04:21<12:12:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1247/15423 [1:04:25<12:12:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1247/15423 [1:04:25<12:12:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1248/15423 [1:04:43<12:15:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1248/15423 [1:04:43<12:15:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1249/15423 [1:04:45<12:14:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1249/15423 [1:04:45<12:14:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1250/15423 [1:04:50<12:15:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1250/15423 [1:04:50<12:15:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1251/15423 [1:04:53<12:15:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1251/15423 [1:04:53<12:15:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1252/15423 [1:04:57<12:15:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1252/15423 [1:04:57<12:15:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1253/15423 [1:05:00<12:15:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1253/15423 [1:05:00<12:15:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1254/15423 [1:05:04<12:15:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1254/15423 [1:05:04<12:15:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1255/15423 [1:05:05<12:14:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1255/15423 [1:05:05<12:14:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1256/15423 [1:05:06<12:14:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1256/15423 [1:05:06<12:14:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1257/15423 [1:05:08<12:14:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1257/15423 [1:05:08<12:14:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1258/15423 [1:05:09<12:13:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1258/15423 [1:05:09<12:13:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1259/15423 [1:05:12<12:13:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1259/15423 [1:05:12<12:13:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1260/15423 [1:05:16<12:13:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1260/15423 [1:05:16<12:13:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1261/15423 [1:05:20<12:13:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1261/15423 [1:05:20<12:13:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1262/15423 [1:05:23<12:13:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1262/15423 [1:05:23<12:13:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1263/15423 [1:05:26<12:13:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1263/15423 [1:05:26<12:13:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1264/15423 [1:05:28<12:13:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1264/15423 [1:05:28<12:13:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1265/15423 [1:05:32<12:13:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1265/15423 [1:05:32<12:13:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1266/15423 [1:05:36<12:13:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1266/15423 [1:05:36<12:13:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1267/15423 [1:05:39<12:13:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1267/15423 [1:05:39<12:13:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1268/15423 [1:05:43<12:13:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1268/15423 [1:05:43<12:13:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1269/15423 [1:05:46<12:13:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1269/15423 [1:05:46<12:13:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1270/15423 [1:05:47<12:13:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1270/15423 [1:05:47<12:13:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1271/15423 [1:05:47<12:12:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1271/15423 [1:05:47<12:12:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1272/15423 [1:05:50<12:12:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1272/15423 [1:05:50<12:12:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1273/15423 [1:05:51<12:12:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1273/15423 [1:05:51<12:12:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1274/15423 [1:05:52<12:11:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1274/15423 [1:05:52<12:11:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1275/15423 [1:05:54<12:11:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1275/15423 [1:05:54<12:11:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1276/15423 [1:05:57<12:11:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1276/15423 [1:05:57<12:11:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1277/15423 [1:05:59<12:11:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1277/15423 [1:05:59<12:11:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1278/15423 [1:06:03<12:11:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1278/15423 [1:06:03<12:11:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1279/15423 [1:06:05<12:10:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1279/15423 [1:06:05<12:10:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1280/15423 [1:06:22<12:13:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1280/15423 [1:06:22<12:13:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1281/15423 [1:06:26<12:13:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1281/15423 [1:06:26<12:13:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1282/15423 [1:06:28<12:13:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1282/15423 [1:06:28<12:13:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1283/15423 [1:06:30<12:13:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1283/15423 [1:06:30<12:13:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1284/15423 [1:06:32<12:12:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1284/15423 [1:06:32<12:12:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1285/15423 [1:06:34<12:12:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1285/15423 [1:06:34<12:12:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1286/15423 [1:06:36<12:12:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1286/15423 [1:06:36<12:12:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1287/15423 [1:06:38<12:11:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1287/15423 [1:06:38<12:11:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1288/15423 [1:06:40<12:11:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1288/15423 [1:06:40<12:11:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1289/15423 [1:06:42<12:11:26,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1289/15423 [1:06:42<12:11:26,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1290/15423 [1:06:44<12:11:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1290/15423 [1:06:44<12:11:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1291/15423 [1:06:47<12:11:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1291/15423 [1:06:47<12:11:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1292/15423 [1:06:50<12:11:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1292/15423 [1:06:50<12:11:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1293/15423 [1:06:54<12:11:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1293/15423 [1:06:54<12:11:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1294/15423 [1:06:55<12:10:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1294/15423 [1:06:55<12:10:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1295/15423 [1:06:59<12:10:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1295/15423 [1:06:59<12:10:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1296/15423 [1:07:00<12:10:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1296/15423 [1:07:00<12:10:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1297/15423 [1:07:04<12:10:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1297/15423 [1:07:04<12:10:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1298/15423 [1:07:05<12:10:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1298/15423 [1:07:05<12:10:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1299/15423 [1:07:07<12:09:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1299/15423 [1:07:07<12:09:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1300/15423 [1:07:11<12:09:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1300/15423 [1:07:11<12:09:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1301/15423 [1:07:12<12:09:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1301/15423 [1:07:12<12:09:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1302/15423 [1:07:16<12:09:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1302/15423 [1:07:16<12:09:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1303/15423 [1:07:18<12:09:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1303/15423 [1:07:18<12:09:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1304/15423 [1:07:19<12:08:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1304/15423 [1:07:19<12:08:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1305/15423 [1:07:21<12:08:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1305/15423 [1:07:21<12:08:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1306/15423 [1:07:23<12:08:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1306/15423 [1:07:23<12:08:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1307/15423 [1:07:27<12:08:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1307/15423 [1:07:27<12:08:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1308/15423 [1:07:29<12:08:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1308/15423 [1:07:29<12:08:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1309/15423 [1:07:31<12:08:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1309/15423 [1:07:31<12:08:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   8%| | 1310/15423 [1:07:32<12:07:40,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   8%| | 1310/15423 [1:07:32<12:07:40,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1311/15423 [1:07:34<12:07:22,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1311/15423 [1:07:34<12:07:22,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1312/15423 [1:07:59<12:11:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1312/15423 [1:07:59<12:11:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1313/15423 [1:08:02<12:11:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1313/15423 [1:08:02<12:11:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1314/15423 [1:08:04<12:10:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1314/15423 [1:08:04<12:10:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1315/15423 [1:08:07<12:10:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1315/15423 [1:08:07<12:10:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1316/15423 [1:08:08<12:10:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1316/15423 [1:08:08<12:10:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1317/15423 [1:08:10<12:10:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1317/15423 [1:08:10<12:10:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1318/15423 [1:08:12<12:09:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1318/15423 [1:08:12<12:09:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1319/15423 [1:08:15<12:09:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1319/15423 [1:08:15<12:09:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1320/15423 [1:08:17<12:09:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1320/15423 [1:08:17<12:09:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1321/15423 [1:08:20<12:09:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1321/15423 [1:08:20<12:09:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1322/15423 [1:08:23<12:09:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1322/15423 [1:08:23<12:09:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1323/15423 [1:08:28<12:09:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1323/15423 [1:08:28<12:09:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1324/15423 [1:08:30<12:09:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1324/15423 [1:08:30<12:09:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1325/15423 [1:08:32<12:09:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1325/15423 [1:08:32<12:09:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1326/15423 [1:08:36<12:09:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1326/15423 [1:08:36<12:09:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1327/15423 [1:08:39<12:09:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1327/15423 [1:08:39<12:09:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1328/15423 [1:08:42<12:09:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1328/15423 [1:08:42<12:09:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1329/15423 [1:08:43<12:08:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1329/15423 [1:08:43<12:08:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1330/15423 [1:08:45<12:08:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1330/15423 [1:08:45<12:08:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1331/15423 [1:08:47<12:08:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1331/15423 [1:08:47<12:08:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1332/15423 [1:08:48<12:07:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1332/15423 [1:08:48<12:07:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1333/15423 [1:08:49<12:07:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1333/15423 [1:08:49<12:07:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1334/15423 [1:08:50<12:06:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1334/15423 [1:08:50<12:06:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1335/15423 [1:08:51<12:06:36,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1335/15423 [1:08:51<12:06:36,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1336/15423 [1:08:55<12:06:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1336/15423 [1:08:55<12:06:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1337/15423 [1:08:57<12:06:28,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1337/15423 [1:08:57<12:06:28,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1338/15423 [1:08:59<12:06:16,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1338/15423 [1:08:59<12:06:16,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1339/15423 [1:09:03<12:06:20,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1339/15423 [1:09:03<12:06:20,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1340/15423 [1:09:03<12:05:51,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1340/15423 [1:09:03<12:05:51,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1341/15423 [1:09:06<12:05:44,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1341/15423 [1:09:06<12:05:44,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1342/15423 [1:09:10<12:05:54,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1342/15423 [1:09:10<12:05:54,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1343/15423 [1:09:14<12:05:52,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1343/15423 [1:09:14<12:05:52,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1344/15423 [1:09:44<12:10:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1344/15423 [1:09:44<12:10:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1345/15423 [1:09:48<12:10:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1345/15423 [1:09:48<12:10:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1346/15423 [1:09:52<12:10:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1346/15423 [1:09:52<12:10:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1347/15423 [1:09:54<12:10:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1347/15423 [1:09:54<12:10:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1348/15423 [1:09:57<12:10:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1348/15423 [1:09:57<12:10:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1349/15423 [1:09:59<12:10:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1349/15423 [1:09:59<12:10:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1350/15423 [1:10:01<12:10:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1350/15423 [1:10:01<12:10:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1351/15423 [1:10:02<12:09:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1351/15423 [1:10:02<12:09:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1352/15423 [1:10:06<12:09:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1352/15423 [1:10:06<12:09:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1353/15423 [1:10:08<12:09:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1353/15423 [1:10:08<12:09:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1354/15423 [1:10:10<12:09:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1354/15423 [1:10:10<12:09:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1355/15423 [1:10:14<12:09:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1355/15423 [1:10:14<12:09:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1356/15423 [1:10:16<12:09:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1356/15423 [1:10:16<12:09:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1357/15423 [1:10:20<12:09:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1357/15423 [1:10:20<12:09:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1358/15423 [1:10:23<12:08:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1358/15423 [1:10:23<12:08:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1359/15423 [1:10:24<12:08:35,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1359/15423 [1:10:24<12:08:35,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1360/15423 [1:10:26<12:08:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1360/15423 [1:10:26<12:08:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1361/15423 [1:10:28<12:08:06,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1361/15423 [1:10:28<12:08:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1362/15423 [1:10:30<12:07:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1362/15423 [1:10:30<12:07:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1363/15423 [1:10:32<12:07:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1363/15423 [1:10:32<12:07:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1364/15423 [1:10:34<12:07:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1364/15423 [1:10:34<12:07:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1365/15423 [1:10:38<12:07:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1365/15423 [1:10:38<12:07:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1366/15423 [1:10:38<12:06:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1366/15423 [1:10:38<12:06:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1367/15423 [1:10:40<12:06:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1367/15423 [1:10:40<12:06:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1368/15423 [1:10:42<12:06:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1368/15423 [1:10:42<12:06:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1369/15423 [1:10:44<12:06:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1369/15423 [1:10:44<12:06:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1370/15423 [1:10:45<12:05:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1370/15423 [1:10:45<12:05:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1371/15423 [1:10:45<12:05:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1371/15423 [1:10:45<12:05:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1372/15423 [1:10:49<12:05:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1372/15423 [1:10:49<12:05:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1373/15423 [1:10:50<12:04:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1373/15423 [1:10:50<12:04:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1374/15423 [1:10:53<12:04:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1374/15423 [1:10:53<12:04:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1375/15423 [1:10:55<12:04:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1375/15423 [1:10:55<12:04:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1376/15423 [1:11:22<12:08:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1376/15423 [1:11:22<12:08:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1377/15423 [1:11:23<12:08:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1377/15423 [1:11:23<12:08:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1378/15423 [1:11:27<12:08:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1378/15423 [1:11:27<12:08:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1379/15423 [1:11:31<12:08:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1379/15423 [1:11:31<12:08:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1380/15423 [1:11:34<12:08:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1380/15423 [1:11:34<12:08:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1381/15423 [1:11:38<12:08:29,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1381/15423 [1:11:38<12:08:29,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1382/15423 [1:11:41<12:08:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1382/15423 [1:11:41<12:08:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1383/15423 [1:11:44<12:08:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1383/15423 [1:11:44<12:08:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1384/15423 [1:11:46<12:08:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1384/15423 [1:11:46<12:08:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1385/15423 [1:11:47<12:07:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1385/15423 [1:11:47<12:07:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1386/15423 [1:11:48<12:07:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1386/15423 [1:11:48<12:07:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1387/15423 [1:11:52<12:07:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1387/15423 [1:11:52<12:07:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1388/15423 [1:11:56<12:07:29,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1388/15423 [1:11:56<12:07:29,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1389/15423 [1:11:58<12:07:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1389/15423 [1:11:58<12:07:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1390/15423 [1:12:03<12:07:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1390/15423 [1:12:03<12:07:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1391/15423 [1:12:04<12:06:59,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1391/15423 [1:12:04<12:06:59,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1392/15423 [1:12:08<12:07:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1392/15423 [1:12:08<12:07:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1393/15423 [1:12:09<12:06:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1393/15423 [1:12:09<12:06:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1394/15423 [1:12:14<12:06:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1394/15423 [1:12:14<12:06:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1395/15423 [1:12:15<12:06:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1395/15423 [1:12:15<12:06:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1396/15423 [1:12:17<12:06:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1396/15423 [1:12:17<12:06:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1397/15423 [1:12:21<12:06:26,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1397/15423 [1:12:21<12:06:26,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1398/15423 [1:12:24<12:06:26,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1398/15423 [1:12:24<12:06:26,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1399/15423 [1:12:25<12:06:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1399/15423 [1:12:25<12:06:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1400/15423 [1:12:26<12:05:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1400/15423 [1:12:26<12:05:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1401/15423 [1:12:27<12:05:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1401/15423 [1:12:27<12:05:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1402/15423 [1:12:31<12:05:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1402/15423 [1:12:31<12:05:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1403/15423 [1:12:35<12:05:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1403/15423 [1:12:35<12:05:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1404/15423 [1:12:37<12:05:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1404/15423 [1:12:37<12:05:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1405/15423 [1:12:38<12:04:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1405/15423 [1:12:38<12:04:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1406/15423 [1:12:39<12:04:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1406/15423 [1:12:39<12:04:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1407/15423 [1:12:41<12:04:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1407/15423 [1:12:41<12:04:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1408/15423 [1:13:03<12:07:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1408/15423 [1:13:03<12:07:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1409/15423 [1:13:07<12:07:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1409/15423 [1:13:07<12:07:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1410/15423 [1:13:11<12:07:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1410/15423 [1:13:11<12:07:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1411/15423 [1:13:14<12:07:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1411/15423 [1:13:14<12:07:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1412/15423 [1:13:16<12:07:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1412/15423 [1:13:16<12:07:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1413/15423 [1:13:19<12:07:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1413/15423 [1:13:19<12:07:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1414/15423 [1:13:20<12:06:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1414/15423 [1:13:20<12:06:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1415/15423 [1:13:21<12:06:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1415/15423 [1:13:21<12:06:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1416/15423 [1:13:22<12:05:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1416/15423 [1:13:22<12:05:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1417/15423 [1:13:24<12:05:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1417/15423 [1:13:24<12:05:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1418/15423 [1:13:28<12:05:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1418/15423 [1:13:28<12:05:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1419/15423 [1:13:31<12:05:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1419/15423 [1:13:31<12:05:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1420/15423 [1:13:34<12:05:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1420/15423 [1:13:34<12:05:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1421/15423 [1:13:36<12:05:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1421/15423 [1:13:36<12:05:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1422/15423 [1:13:39<12:05:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1422/15423 [1:13:39<12:05:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1423/15423 [1:13:39<12:04:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1423/15423 [1:13:39<12:04:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1424/15423 [1:13:42<12:04:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1424/15423 [1:13:42<12:04:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1425/15423 [1:13:46<12:04:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1425/15423 [1:13:46<12:04:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1426/15423 [1:13:50<12:04:48,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1426/15423 [1:13:50<12:04:48,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1427/15423 [1:13:53<12:04:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1427/15423 [1:13:53<12:04:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1428/15423 [1:13:56<12:04:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1428/15423 [1:13:56<12:04:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1429/15423 [1:13:59<12:04:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1429/15423 [1:13:59<12:04:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1430/15423 [1:14:04<12:04:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1430/15423 [1:14:04<12:04:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1431/15423 [1:14:05<12:04:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1431/15423 [1:14:05<12:04:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1432/15423 [1:14:07<12:04:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1432/15423 [1:14:07<12:04:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1433/15423 [1:14:11<12:04:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1433/15423 [1:14:11<12:04:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1434/15423 [1:14:15<12:04:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1434/15423 [1:14:15<12:04:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1435/15423 [1:14:19<12:04:29,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1435/15423 [1:14:19<12:04:29,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1436/15423 [1:14:22<12:04:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1436/15423 [1:14:22<12:04:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1437/15423 [1:14:25<12:04:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1437/15423 [1:14:25<12:04:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1438/15423 [1:14:27<12:04:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1438/15423 [1:14:27<12:04:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1439/15423 [1:14:31<12:04:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1439/15423 [1:14:31<12:04:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1440/15423 [1:14:41<12:05:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1440/15423 [1:14:41<12:05:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1441/15423 [1:14:44<12:05:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1441/15423 [1:14:44<12:05:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1442/15423 [1:14:46<12:04:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1442/15423 [1:14:46<12:04:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1443/15423 [1:14:47<12:04:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1443/15423 [1:14:47<12:04:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1444/15423 [1:14:48<12:04:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1444/15423 [1:14:48<12:04:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1445/15423 [1:14:49<12:03:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1445/15423 [1:14:49<12:03:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1446/15423 [1:14:51<12:03:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1446/15423 [1:14:51<12:03:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1447/15423 [1:14:54<12:03:29,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1447/15423 [1:14:54<12:03:29,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1448/15423 [1:14:58<12:03:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1448/15423 [1:14:58<12:03:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1449/15423 [1:15:00<12:03:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1449/15423 [1:15:00<12:03:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1450/15423 [1:15:04<12:03:29,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1450/15423 [1:15:04<12:03:29,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1451/15423 [1:15:06<12:03:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1451/15423 [1:15:06<12:03:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1452/15423 [1:15:08<12:03:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1452/15423 [1:15:08<12:03:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1453/15423 [1:15:09<12:02:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1453/15423 [1:15:09<12:02:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1454/15423 [1:15:13<12:02:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1454/15423 [1:15:13<12:02:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1455/15423 [1:15:17<12:02:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1455/15423 [1:15:17<12:02:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1456/15423 [1:15:17<12:02:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1456/15423 [1:15:17<12:02:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1457/15423 [1:15:18<12:01:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1457/15423 [1:15:18<12:01:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1458/15423 [1:15:20<12:01:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1458/15423 [1:15:20<12:01:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1459/15423 [1:15:25<12:01:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1459/15423 [1:15:25<12:01:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1460/15423 [1:15:26<12:01:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1460/15423 [1:15:26<12:01:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1461/15423 [1:15:29<12:01:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1461/15423 [1:15:29<12:01:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1462/15423 [1:15:32<12:01:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1462/15423 [1:15:32<12:01:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1463/15423 [1:15:35<12:01:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1463/15423 [1:15:35<12:01:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1464/15423 [1:15:36<12:00:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1464/15423 [1:15:36<12:00:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:   9%| | 1465/15423 [1:15:37<12:00:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:   9%| | 1465/15423 [1:15:37<12:00:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1466/15423 [1:15:40<12:00:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1466/15423 [1:15:40<12:00:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1467/15423 [1:15:41<12:00:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1467/15423 [1:15:41<12:00:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1468/15423 [1:15:44<12:00:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1468/15423 [1:15:44<12:00:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1469/15423 [1:15:46<11:59:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1469/15423 [1:15:46<11:59:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1470/15423 [1:15:51<11:59:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1470/15423 [1:15:51<11:59:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1471/15423 [1:15:53<11:59:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1471/15423 [1:15:53<11:59:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1472/15423 [1:16:33<12:05:39,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1472/15423 [1:16:33<12:05:39,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1473/15423 [1:16:35<12:05:18,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1473/15423 [1:16:35<12:05:18,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1474/15423 [1:16:35<12:04:52,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1474/15423 [1:16:35<12:04:52,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1475/15423 [1:16:39<12:04:51,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1475/15423 [1:16:39<12:04:51,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1476/15423 [1:16:40<12:04:35,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1476/15423 [1:16:40<12:04:35,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1477/15423 [1:16:41<12:04:08,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1477/15423 [1:16:41<12:04:08,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1478/15423 [1:16:44<12:04:07,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1478/15423 [1:16:44<12:04:07,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1479/15423 [1:16:46<12:03:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1479/15423 [1:16:46<12:03:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1480/15423 [1:16:50<12:03:58,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1480/15423 [1:16:50<12:03:58,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1481/15423 [1:16:54<12:03:57,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1481/15423 [1:16:54<12:03:57,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1482/15423 [1:16:58<12:04:01,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1482/15423 [1:16:58<12:04:01,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1483/15423 [1:17:00<12:03:54,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1483/15423 [1:17:00<12:03:54,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1484/15423 [1:17:02<12:03:42,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1484/15423 [1:17:02<12:03:42,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1485/15423 [1:17:05<12:03:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1485/15423 [1:17:05<12:03:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1486/15423 [1:17:06<12:03:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1486/15423 [1:17:06<12:03:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1487/15423 [1:17:07<12:02:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1487/15423 [1:17:07<12:02:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1488/15423 [1:17:10<12:02:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1488/15423 [1:17:10<12:02:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1489/15423 [1:17:12<12:02:26,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1489/15423 [1:17:12<12:02:26,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1490/15423 [1:17:16<12:02:35,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1490/15423 [1:17:16<12:02:35,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1491/15423 [1:17:17<12:02:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1491/15423 [1:17:17<12:02:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1492/15423 [1:17:21<12:02:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1492/15423 [1:17:21<12:02:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1493/15423 [1:17:24<12:02:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1493/15423 [1:17:24<12:02:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1494/15423 [1:17:28<12:02:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1494/15423 [1:17:28<12:02:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1495/15423 [1:17:31<12:02:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1495/15423 [1:17:31<12:02:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1496/15423 [1:17:33<12:01:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1496/15423 [1:17:33<12:01:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1497/15423 [1:17:35<12:01:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1497/15423 [1:17:35<12:01:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1498/15423 [1:17:36<12:01:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1498/15423 [1:17:36<12:01:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1499/15423 [1:17:39<12:01:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1499/15423 [1:17:39<12:01:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1500/15423 [1:17:41<12:01:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1500/15423 [1:17:41<12:01:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1501/15423 [1:17:45<12:01:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1501/15423 [1:17:45<12:01:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1502/15423 [1:17:47<12:01:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1502/15423 [1:17:47<12:01:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1503/15423 [1:17:49<12:00:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1503/15423 [1:17:49<12:00:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1504/15423 [1:18:09<12:03:22,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1504/15423 [1:18:09<12:03:22,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1505/15423 [1:18:12<12:03:15,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1505/15423 [1:18:12<12:03:15,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1506/15423 [1:18:14<12:02:59,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1506/15423 [1:18:14<12:02:59,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1507/15423 [1:18:15<12:02:43,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1507/15423 [1:18:15<12:02:43,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1508/15423 [1:18:16<12:02:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1508/15423 [1:18:16<12:02:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1509/15423 [1:18:18<12:02:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1509/15423 [1:18:18<12:02:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1510/15423 [1:18:19<12:01:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1510/15423 [1:18:19<12:01:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1511/15423 [1:18:22<12:01:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1511/15423 [1:18:22<12:01:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1512/15423 [1:18:26<12:01:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1512/15423 [1:18:26<12:01:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1513/15423 [1:18:31<12:01:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1513/15423 [1:18:31<12:01:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1514/15423 [1:18:35<12:02:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1514/15423 [1:18:35<12:02:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1515/15423 [1:18:38<12:01:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1515/15423 [1:18:38<12:01:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1516/15423 [1:18:39<12:01:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1516/15423 [1:18:39<12:01:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1517/15423 [1:18:40<12:01:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1517/15423 [1:18:40<12:01:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1518/15423 [1:18:41<12:00:52,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1518/15423 [1:18:41<12:00:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1519/15423 [1:18:44<12:00:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1519/15423 [1:18:44<12:00:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1520/15423 [1:18:48<12:00:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1520/15423 [1:18:48<12:00:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1521/15423 [1:18:50<12:00:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1521/15423 [1:18:50<12:00:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1522/15423 [1:18:52<12:00:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1522/15423 [1:18:52<12:00:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1523/15423 [1:18:56<12:00:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1523/15423 [1:18:56<12:00:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1524/15423 [1:18:58<12:00:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1524/15423 [1:18:58<12:00:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1525/15423 [1:19:00<12:00:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1525/15423 [1:19:00<12:00:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1526/15423 [1:19:01<11:59:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1526/15423 [1:19:01<11:59:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1527/15423 [1:19:03<11:59:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1527/15423 [1:19:03<11:59:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1528/15423 [1:19:05<11:59:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1528/15423 [1:19:05<11:59:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1529/15423 [1:19:07<11:58:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1529/15423 [1:19:07<11:58:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1530/15423 [1:19:11<11:59:06,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1530/15423 [1:19:11<11:59:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1531/15423 [1:19:12<11:58:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1531/15423 [1:19:12<11:58:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1532/15423 [1:19:16<11:58:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1532/15423 [1:19:16<11:58:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1533/15423 [1:19:17<11:58:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1533/15423 [1:19:17<11:58:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1534/15423 [1:19:19<11:58:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1534/15423 [1:19:19<11:58:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1535/15423 [1:19:22<11:58:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1535/15423 [1:19:22<11:58:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1536/15423 [1:19:51<12:01:56,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1536/15423 [1:19:51<12:01:56,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1537/15423 [1:19:54<12:01:59,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1537/15423 [1:19:54<12:01:59,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1538/15423 [1:19:58<12:02:02,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1538/15423 [1:19:58<12:02:02,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1539/15423 [1:19:59<12:01:37,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1539/15423 [1:19:59<12:01:37,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1540/15423 [1:20:03<12:01:44,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1540/15423 [1:20:03<12:01:44,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1541/15423 [1:20:06<12:01:43,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1541/15423 [1:20:06<12:01:43,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1542/15423 [1:20:08<12:01:27,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1542/15423 [1:20:08<12:01:27,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1543/15423 [1:20:13<12:01:35,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1543/15423 [1:20:13<12:01:35,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1544/15423 [1:20:13<12:01:10,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1544/15423 [1:20:13<12:01:10,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1545/15423 [1:20:15<12:00:54,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1545/15423 [1:20:15<12:00:54,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1546/15423 [1:20:19<12:01:01,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1546/15423 [1:20:19<12:01:01,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1547/15423 [1:20:22<12:01:00,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1547/15423 [1:20:22<12:01:00,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1548/15423 [1:20:26<12:00:58,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1548/15423 [1:20:26<12:00:58,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1549/15423 [1:20:29<12:00:52,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1549/15423 [1:20:29<12:00:52,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1550/15423 [1:20:30<12:00:32,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1550/15423 [1:20:30<12:00:32,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1551/15423 [1:20:30<12:00:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1551/15423 [1:20:30<12:00:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1552/15423 [1:20:32<11:59:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1552/15423 [1:20:32<11:59:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1553/15423 [1:20:36<11:59:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1553/15423 [1:20:36<11:59:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1554/15423 [1:20:40<11:59:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1554/15423 [1:20:40<11:59:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1555/15423 [1:20:44<12:00:00,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1555/15423 [1:20:44<12:00:00,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1556/15423 [1:20:48<12:00:08,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1556/15423 [1:20:48<12:00:08,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1557/15423 [1:20:51<12:00:06,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1557/15423 [1:20:51<12:00:06,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1558/15423 [1:20:55<12:00:09,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1558/15423 [1:20:55<12:00:09,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1559/15423 [1:20:57<11:59:59,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1559/15423 [1:20:57<11:59:59,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1560/15423 [1:21:01<11:59:57,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1560/15423 [1:21:01<11:59:57,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1561/15423 [1:21:01<11:59:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1561/15423 [1:21:01<11:59:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1562/15423 [1:21:02<11:59:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1562/15423 [1:21:02<11:59:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1563/15423 [1:21:05<11:59:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1563/15423 [1:21:05<11:59:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1564/15423 [1:21:07<11:58:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1564/15423 [1:21:07<11:58:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1565/15423 [1:21:11<11:59:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1565/15423 [1:21:11<11:59:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1566/15423 [1:21:16<11:59:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1566/15423 [1:21:16<11:59:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1567/15423 [1:21:18<11:58:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1567/15423 [1:21:18<11:58:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1568/15423 [1:21:26<11:59:39,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1568/15423 [1:21:26<11:59:39,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1569/15423 [1:21:31<11:59:47,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1569/15423 [1:21:31<11:59:47,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1570/15423 [1:21:32<11:59:32,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1570/15423 [1:21:32<11:59:32,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1571/15423 [1:21:35<11:59:21,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1571/15423 [1:21:35<11:59:21,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1572/15423 [1:21:37<11:59:10,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1572/15423 [1:21:37<11:59:10,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1573/15423 [1:21:41<11:59:13,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1573/15423 [1:21:41<11:59:13,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1574/15423 [1:21:45<11:59:21,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1574/15423 [1:21:45<11:59:21,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1575/15423 [1:21:46<11:58:56,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1575/15423 [1:21:46<11:58:56,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1576/15423 [1:21:47<11:58:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1576/15423 [1:21:47<11:58:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1577/15423 [1:21:48<11:58:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1577/15423 [1:21:48<11:58:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1578/15423 [1:21:50<11:58:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1578/15423 [1:21:50<11:58:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1579/15423 [1:21:54<11:58:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1579/15423 [1:21:54<11:58:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1580/15423 [1:21:58<11:58:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1580/15423 [1:21:58<11:58:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1581/15423 [1:22:00<11:57:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1581/15423 [1:22:00<11:57:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1582/15423 [1:22:03<11:57:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1582/15423 [1:22:03<11:57:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1583/15423 [1:22:06<11:57:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1583/15423 [1:22:06<11:57:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1584/15423 [1:22:10<11:57:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1584/15423 [1:22:10<11:57:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1585/15423 [1:22:11<11:57:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1585/15423 [1:22:11<11:57:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1586/15423 [1:22:16<11:57:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1586/15423 [1:22:16<11:57:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1587/15423 [1:22:18<11:57:35,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1587/15423 [1:22:18<11:57:35,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1588/15423 [1:22:22<11:57:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1588/15423 [1:22:22<11:57:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1589/15423 [1:22:24<11:57:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1589/15423 [1:22:24<11:57:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1590/15423 [1:22:27<11:57:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1590/15423 [1:22:27<11:57:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1591/15423 [1:22:30<11:57:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1591/15423 [1:22:30<11:57:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1592/15423 [1:22:33<11:57:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1592/15423 [1:22:33<11:57:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1593/15423 [1:22:35<11:57:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1593/15423 [1:22:35<11:57:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1594/15423 [1:22:40<11:57:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1594/15423 [1:22:40<11:57:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1595/15423 [1:22:41<11:56:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1595/15423 [1:22:41<11:56:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1596/15423 [1:22:42<11:56:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1596/15423 [1:22:42<11:56:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1597/15423 [1:22:46<11:56:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1597/15423 [1:22:46<11:56:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1598/15423 [1:22:48<11:56:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1598/15423 [1:22:48<11:56:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1599/15423 [1:22:49<11:56:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1599/15423 [1:22:49<11:56:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1600/15423 [1:23:03<11:57:35,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1600/15423 [1:23:03<11:57:35,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1601/15423 [1:23:25<12:00:16,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1601/15423 [1:23:25<12:00:16,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1602/15423 [1:23:29<12:00:20,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1602/15423 [1:23:29<12:00:20,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1603/15423 [1:23:32<12:00:14,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1603/15423 [1:23:32<12:00:14,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1604/15423 [1:23:35<12:00:08,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1604/15423 [1:23:35<12:00:08,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1605/15423 [1:23:39<12:00:11,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1605/15423 [1:23:39<12:00:11,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1606/15423 [1:23:43<12:00:19,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1606/15423 [1:23:43<12:00:19,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1607/15423 [1:23:46<12:00:17,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1607/15423 [1:23:46<12:00:17,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1608/15423 [1:23:51<12:00:24,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1608/15423 [1:23:51<12:00:24,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1609/15423 [1:23:51<12:00:00,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1609/15423 [1:23:51<12:00:00,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1610/15423 [1:23:53<11:59:40,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1610/15423 [1:23:53<11:59:40,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1611/15423 [1:23:53<11:59:16,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1611/15423 [1:23:53<11:59:16,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1612/15423 [1:23:56<11:59:10,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1612/15423 [1:23:56<11:59:10,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1613/15423 [1:23:57<11:58:46,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1613/15423 [1:23:57<11:58:46,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1614/15423 [1:23:59<11:58:40,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1614/15423 [1:23:59<11:58:40,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1615/15423 [1:24:02<11:58:30,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1615/15423 [1:24:02<11:58:30,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1616/15423 [1:24:03<11:58:15,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1616/15423 [1:24:03<11:58:15,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1617/15423 [1:24:07<11:58:13,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1617/15423 [1:24:07<11:58:13,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1618/15423 [1:24:11<11:58:21,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1618/15423 [1:24:11<11:58:21,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  10%| | 1619/15423 [1:24:16<11:58:28,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  10%| | 1619/15423 [1:24:16<11:58:28,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1620/15423 [1:24:20<11:58:36,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1620/15423 [1:24:20<11:58:36,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1621/15423 [1:24:24<11:58:39,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1621/15423 [1:24:24<11:58:39,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1622/15423 [1:24:26<11:58:33,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1622/15423 [1:24:26<11:58:33,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1623/15423 [1:24:30<11:58:35,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1623/15423 [1:24:30<11:58:35,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1624/15423 [1:24:35<11:58:42,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1624/15423 [1:24:35<11:58:42,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1625/15423 [1:24:36<11:58:23,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1625/15423 [1:24:36<11:58:23,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1626/15423 [1:24:40<11:58:30,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1626/15423 [1:24:40<11:58:30,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1627/15423 [1:24:44<11:58:37,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1627/15423 [1:24:44<11:58:37,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1628/15423 [1:24:46<11:58:18,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1628/15423 [1:24:46<11:58:18,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1629/15423 [1:24:46<11:57:54,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1629/15423 [1:24:46<11:57:54,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1630/15423 [1:24:48<11:57:39,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1630/15423 [1:24:48<11:57:39,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1631/15423 [1:24:50<11:57:23,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1631/15423 [1:24:50<11:57:23,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1632/15423 [1:25:06<11:59:11,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1632/15423 [1:25:06<11:59:11,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1633/15423 [1:25:10<11:59:19,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1633/15423 [1:25:10<11:59:19,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1634/15423 [1:25:11<11:58:56,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1634/15423 [1:25:11<11:58:56,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1635/15423 [1:25:14<11:58:50,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1635/15423 [1:25:14<11:58:50,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1636/15423 [1:25:15<11:58:30,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1636/15423 [1:25:15<11:58:30,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1637/15423 [1:25:18<11:58:24,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1637/15423 [1:25:18<11:58:24,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1638/15423 [1:25:20<11:58:10,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1638/15423 [1:25:20<11:58:10,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1639/15423 [1:25:24<11:58:17,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1639/15423 [1:25:24<11:58:17,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1640/15423 [1:25:26<11:58:02,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1640/15423 [1:25:26<11:58:02,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1641/15423 [1:25:30<11:58:06,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1641/15423 [1:25:30<11:58:06,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1642/15423 [1:25:32<11:57:59,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1642/15423 [1:25:32<11:57:59,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1643/15423 [1:25:34<11:57:40,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1643/15423 [1:25:34<11:57:40,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1644/15423 [1:25:35<11:57:21,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1644/15423 [1:25:35<11:57:21,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1645/15423 [1:25:39<11:57:28,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1645/15423 [1:25:39<11:57:28,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1646/15423 [1:25:42<11:57:18,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1646/15423 [1:25:42<11:57:18,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1647/15423 [1:25:43<11:57:04,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1647/15423 [1:25:43<11:57:04,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1648/15423 [1:25:45<11:56:49,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1648/15423 [1:25:45<11:56:49,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1649/15423 [1:25:48<11:56:42,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1649/15423 [1:25:48<11:56:42,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1650/15423 [1:25:51<11:56:36,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1650/15423 [1:25:51<11:56:36,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1651/15423 [1:25:52<11:56:17,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1651/15423 [1:25:52<11:56:17,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1652/15423 [1:25:54<11:56:07,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1652/15423 [1:25:54<11:56:07,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1653/15423 [1:25:58<11:56:10,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1653/15423 [1:25:58<11:56:10,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1654/15423 [1:25:58<11:55:46,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1654/15423 [1:25:58<11:55:46,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1655/15423 [1:26:00<11:55:27,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1655/15423 [1:26:00<11:55:27,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1656/15423 [1:26:01<11:55:08,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1656/15423 [1:26:01<11:55:08,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1657/15423 [1:26:03<11:54:53,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1657/15423 [1:26:03<11:54:53,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1658/15423 [1:26:07<11:55:01,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1658/15423 [1:26:07<11:55:01,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1659/15423 [1:26:08<11:54:42,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1659/15423 [1:26:08<11:54:42,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1660/15423 [1:26:10<11:54:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1660/15423 [1:26:10<11:54:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1661/15423 [1:26:15<11:54:39,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1661/15423 [1:26:15<11:54:39,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1662/15423 [1:26:16<11:54:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1662/15423 [1:26:16<11:54:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1663/15423 [1:26:19<11:54:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1663/15423 [1:26:19<11:54:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1664/15423 [1:26:44<11:57:14,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1664/15423 [1:26:44<11:57:14,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1665/15423 [1:26:46<11:57:04,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1665/15423 [1:26:46<11:57:04,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1666/15423 [1:26:47<11:56:40,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1666/15423 [1:26:47<11:56:40,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1667/15423 [1:26:49<11:56:30,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1667/15423 [1:26:49<11:56:30,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1668/15423 [1:26:53<11:56:33,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1668/15423 [1:26:53<11:56:33,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1669/15423 [1:26:55<11:56:22,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1669/15423 [1:26:55<11:56:22,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1670/15423 [1:26:58<11:56:16,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1670/15423 [1:26:58<11:56:16,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1671/15423 [1:27:00<11:56:01,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1671/15423 [1:27:00<11:56:01,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1672/15423 [1:27:02<11:55:55,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1672/15423 [1:27:02<11:55:55,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1673/15423 [1:27:07<11:56:01,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1673/15423 [1:27:07<11:56:01,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1674/15423 [1:27:08<11:55:42,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1674/15423 [1:27:08<11:55:42,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1675/15423 [1:27:12<11:55:45,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1675/15423 [1:27:12<11:55:45,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1676/15423 [1:27:14<11:55:31,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1676/15423 [1:27:14<11:55:31,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1677/15423 [1:27:15<11:55:16,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1677/15423 [1:27:15<11:55:16,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1678/15423 [1:27:19<11:55:15,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1678/15423 [1:27:19<11:55:15,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1679/15423 [1:27:22<11:55:13,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1679/15423 [1:27:22<11:55:13,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1680/15423 [1:27:23<11:54:50,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1680/15423 [1:27:23<11:54:50,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1681/15423 [1:27:25<11:54:44,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1681/15423 [1:27:25<11:54:44,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1682/15423 [1:27:26<11:54:21,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1682/15423 [1:27:26<11:54:21,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1683/15423 [1:27:28<11:54:10,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1683/15423 [1:27:28<11:54:10,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1684/15423 [1:27:32<11:54:09,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1684/15423 [1:27:32<11:54:09,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1685/15423 [1:27:36<11:54:15,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1685/15423 [1:27:36<11:54:15,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1686/15423 [1:27:38<11:54:00,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1686/15423 [1:27:38<11:54:00,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1687/15423 [1:27:41<11:53:58,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1687/15423 [1:27:41<11:53:58,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1688/15423 [1:27:44<11:53:52,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1688/15423 [1:27:44<11:53:52,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1689/15423 [1:27:45<11:53:38,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1689/15423 [1:27:45<11:53:38,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1690/15423 [1:27:50<11:53:45,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1690/15423 [1:27:50<11:53:45,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1691/15423 [1:27:52<11:53:39,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1691/15423 [1:27:52<11:53:39,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1692/15423 [1:27:56<11:53:42,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1692/15423 [1:27:56<11:53:42,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1693/15423 [1:28:01<11:53:49,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1693/15423 [1:28:01<11:53:49,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1694/15423 [1:28:02<11:53:30,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1694/15423 [1:28:02<11:53:30,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1695/15423 [1:28:04<11:53:20,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1695/15423 [1:28:04<11:53:20,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1696/15423 [1:28:22<11:55:18,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1696/15423 [1:28:22<11:55:18,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1697/15423 [1:28:25<11:55:12,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1697/15423 [1:28:25<11:55:12,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1698/15423 [1:28:26<11:54:53,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1698/15423 [1:28:26<11:54:53,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1699/15423 [1:28:29<11:54:51,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1699/15423 [1:28:29<11:54:51,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1700/15423 [1:28:31<11:54:37,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1700/15423 [1:28:31<11:54:37,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1701/15423 [1:28:35<11:54:39,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1701/15423 [1:28:35<11:54:39,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1702/15423 [1:28:39<11:54:46,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1702/15423 [1:28:39<11:54:46,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1703/15423 [1:28:42<11:54:40,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1703/15423 [1:28:42<11:54:40,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1704/15423 [1:28:44<11:54:30,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1704/15423 [1:28:44<11:54:30,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1705/15423 [1:28:49<11:54:36,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1705/15423 [1:28:49<11:54:36,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1706/15423 [1:28:49<11:54:13,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1706/15423 [1:28:49<11:54:13,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1707/15423 [1:28:51<11:54:03,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1707/15423 [1:28:51<11:54:03,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1708/15423 [1:28:55<11:54:05,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1708/15423 [1:28:55<11:54:05,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1709/15423 [1:28:56<11:53:46,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1709/15423 [1:28:56<11:53:46,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1710/15423 [1:28:59<11:53:36,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1710/15423 [1:28:59<11:53:36,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1711/15423 [1:29:01<11:53:30,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1711/15423 [1:29:01<11:53:30,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1712/15423 [1:29:04<11:53:20,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1712/15423 [1:29:04<11:53:20,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1713/15423 [1:29:07<11:53:18,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1713/15423 [1:29:07<11:53:18,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1714/15423 [1:29:10<11:53:16,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1714/15423 [1:29:10<11:53:16,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1715/15423 [1:29:14<11:53:19,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1715/15423 [1:29:14<11:53:19,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1716/15423 [1:29:17<11:53:17,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1716/15423 [1:29:17<11:53:17,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1717/15423 [1:29:21<11:53:19,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1717/15423 [1:29:21<11:53:19,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1718/15423 [1:29:26<11:53:26,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1718/15423 [1:29:26<11:53:26,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1719/15423 [1:29:30<11:53:33,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1719/15423 [1:29:30<11:53:33,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1720/15423 [1:29:31<11:53:14,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1720/15423 [1:29:31<11:53:14,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1721/15423 [1:29:34<11:53:13,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1721/15423 [1:29:34<11:53:13,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1722/15423 [1:29:36<11:52:54,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1722/15423 [1:29:36<11:52:54,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1723/15423 [1:29:38<11:52:44,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1723/15423 [1:29:38<11:52:44,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1724/15423 [1:29:40<11:52:30,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1724/15423 [1:29:40<11:52:30,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1725/15423 [1:29:41<11:52:15,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1725/15423 [1:29:41<11:52:15,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1726/15423 [1:29:44<11:52:13,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1726/15423 [1:29:44<11:52:13,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1727/15423 [1:29:48<11:52:15,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1727/15423 [1:29:48<11:52:15,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1728/15423 [1:30:03<11:53:44,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1728/15423 [1:30:03<11:53:44,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1729/15423 [1:30:05<11:53:34,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1729/15423 [1:30:05<11:53:34,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1730/15423 [1:30:10<11:53:40,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1730/15423 [1:30:10<11:53:40,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1731/15423 [1:30:13<11:53:38,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1731/15423 [1:30:13<11:53:38,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1732/15423 [1:30:16<11:53:36,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1732/15423 [1:30:16<11:53:36,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1733/15423 [1:30:20<11:53:38,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1733/15423 [1:30:20<11:53:38,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1734/15423 [1:30:24<11:53:45,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1734/15423 [1:30:24<11:53:45,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1735/15423 [1:30:28<11:53:47,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1735/15423 [1:30:28<11:53:47,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1736/15423 [1:30:29<11:53:30,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1736/15423 [1:30:29<11:53:30,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1737/15423 [1:30:30<11:53:07,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1737/15423 [1:30:30<11:53:07,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1738/15423 [1:30:32<11:52:57,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1738/15423 [1:30:32<11:52:57,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1739/15423 [1:30:37<11:53:04,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1739/15423 [1:30:37<11:53:04,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1740/15423 [1:30:41<11:53:11,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1740/15423 [1:30:41<11:53:11,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1741/15423 [1:30:43<11:53:01,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1741/15423 [1:30:43<11:53:01,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1742/15423 [1:30:44<11:52:39,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1742/15423 [1:30:44<11:52:39,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1743/15423 [1:30:48<11:52:42,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1743/15423 [1:30:48<11:52:42,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1744/15423 [1:30:49<11:52:23,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1744/15423 [1:30:49<11:52:23,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1745/15423 [1:30:50<11:52:05,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1745/15423 [1:30:50<11:52:05,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1746/15423 [1:30:51<11:51:43,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1746/15423 [1:30:51<11:51:43,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1747/15423 [1:30:53<11:51:29,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1747/15423 [1:30:53<11:51:29,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1748/15423 [1:30:57<11:51:32,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1748/15423 [1:30:57<11:51:32,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1749/15423 [1:30:57<11:51:10,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1749/15423 [1:30:57<11:51:10,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1750/15423 [1:30:58<11:50:48,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1750/15423 [1:30:58<11:50:48,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1751/15423 [1:31:01<11:50:46,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1751/15423 [1:31:01<11:50:46,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1752/15423 [1:31:06<11:50:53,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1752/15423 [1:31:06<11:50:53,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1753/15423 [1:31:08<11:50:43,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1753/15423 [1:31:08<11:50:43,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1754/15423 [1:31:09<11:50:25,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1754/15423 [1:31:09<11:50:25,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1755/15423 [1:31:10<11:50:03,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1755/15423 [1:31:10<11:50:03,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1756/15423 [1:31:13<11:50:02,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1756/15423 [1:31:13<11:50:02,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1757/15423 [1:31:17<11:50:00,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1757/15423 [1:31:17<11:50:00,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1758/15423 [1:31:19<11:49:55,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1758/15423 [1:31:19<11:49:55,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1759/15423 [1:31:24<11:50:01,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1759/15423 [1:31:24<11:50:01,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1760/15423 [1:31:43<11:52:02,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1760/15423 [1:31:43<11:52:02,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1761/15423 [1:31:45<11:51:52,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1761/15423 [1:31:45<11:51:52,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1762/15423 [1:31:46<11:51:34,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1762/15423 [1:31:46<11:51:34,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1763/15423 [1:31:48<11:51:20,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1763/15423 [1:31:48<11:51:20,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1764/15423 [1:31:52<11:51:25,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1764/15423 [1:31:52<11:51:25,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1765/15423 [1:31:53<11:51:07,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1765/15423 [1:31:53<11:51:07,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1766/15423 [1:31:55<11:50:49,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1766/15423 [1:31:55<11:50:49,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1767/15423 [1:31:59<11:50:55,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1767/15423 [1:31:59<11:50:55,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1768/15423 [1:32:03<11:50:57,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1768/15423 [1:32:03<11:50:57,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1769/15423 [1:32:05<11:50:51,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1769/15423 [1:32:05<11:50:51,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1770/15423 [1:32:06<11:50:29,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1770/15423 [1:32:06<11:50:29,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1771/15423 [1:32:09<11:50:27,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1771/15423 [1:32:09<11:50:27,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1772/15423 [1:32:13<11:50:29,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1772/15423 [1:32:13<11:50:29,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  11%| | 1773/15423 [1:32:17<11:50:35,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  11%| | 1773/15423 [1:32:17<11:50:35,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1774/15423 [1:32:20<11:50:29,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1774/15423 [1:32:20<11:50:29,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1775/15423 [1:32:22<11:50:15,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1775/15423 [1:32:22<11:50:15,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1776/15423 [1:32:26<11:50:17,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1776/15423 [1:32:26<11:50:17,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1777/15423 [1:32:29<11:50:12,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1777/15423 [1:32:29<11:50:12,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1778/15423 [1:32:31<11:50:02,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1778/15423 [1:32:31<11:50:02,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1779/15423 [1:32:34<11:49:56,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1779/15423 [1:32:34<11:49:56,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1780/15423 [1:32:38<11:50:03,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1780/15423 [1:32:38<11:50:03,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1781/15423 [1:32:40<11:49:53,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1781/15423 [1:32:40<11:49:53,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1782/15423 [1:32:44<11:49:59,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1782/15423 [1:32:44<11:49:59,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1783/15423 [1:32:48<11:49:57,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1783/15423 [1:32:48<11:49:57,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1784/15423 [1:32:50<11:49:47,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1784/15423 [1:32:50<11:49:47,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1785/15423 [1:32:52<11:49:33,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1785/15423 [1:32:52<11:49:33,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1786/15423 [1:32:56<11:49:40,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1786/15423 [1:32:56<11:49:40,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1787/15423 [1:32:58<11:49:26,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1787/15423 [1:32:58<11:49:26,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1788/15423 [1:33:00<11:49:12,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1788/15423 [1:33:00<11:49:12,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1789/15423 [1:33:02<11:49:06,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1789/15423 [1:33:02<11:49:06,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1790/15423 [1:33:04<11:48:52,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1790/15423 [1:33:04<11:48:52,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1791/15423 [1:33:08<11:48:58,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1791/15423 [1:33:08<11:48:58,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1792/15423 [1:33:23<11:50:25,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1792/15423 [1:33:23<11:50:25,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1793/15423 [1:33:25<11:50:11,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1793/15423 [1:33:25<11:50:11,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1794/15423 [1:33:29<11:50:13,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1794/15423 [1:33:29<11:50:13,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1795/15423 [1:33:30<11:49:59,  3.13s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1795/15423 [1:33:30<11:49:59,  3.13s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1796/15423 [1:33:32<11:49:41,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1796/15423 [1:33:32<11:49:41,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1797/15423 [1:33:32<11:49:20,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1797/15423 [1:33:32<11:49:20,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1798/15423 [1:33:34<11:49:02,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1798/15423 [1:33:34<11:49:02,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1799/15423 [1:33:36<11:48:52,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1799/15423 [1:33:36<11:48:52,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1800/15423 [1:33:36<11:48:30,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1800/15423 [1:33:36<11:48:30,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1801/15423 [1:33:38<11:48:17,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1801/15423 [1:33:38<11:48:17,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1802/15423 [1:33:39<11:47:55,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1802/15423 [1:33:39<11:47:55,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1803/15423 [1:33:41<11:47:46,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1803/15423 [1:33:41<11:47:46,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1804/15423 [1:33:44<11:47:40,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1804/15423 [1:33:44<11:47:40,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1805/15423 [1:33:48<11:47:46,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1805/15423 [1:33:48<11:47:46,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1806/15423 [1:33:49<11:47:28,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1806/15423 [1:33:49<11:47:28,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1807/15423 [1:33:52<11:47:19,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1807/15423 [1:33:52<11:47:19,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1808/15423 [1:33:54<11:47:09,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1808/15423 [1:33:54<11:47:09,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1809/15423 [1:33:57<11:47:07,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1809/15423 [1:33:57<11:47:07,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1810/15423 [1:34:00<11:47:01,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1810/15423 [1:34:00<11:47:01,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1811/15423 [1:34:03<11:47:00,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1811/15423 [1:34:03<11:47:00,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1812/15423 [1:34:07<11:46:58,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1812/15423 [1:34:07<11:46:58,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1813/15423 [1:34:09<11:46:48,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1813/15423 [1:34:09<11:46:48,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1814/15423 [1:34:10<11:46:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1814/15423 [1:34:10<11:46:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1815/15423 [1:34:11<11:46:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1815/15423 [1:34:11<11:46:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1816/15423 [1:34:13<11:46:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1816/15423 [1:34:13<11:46:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1817/15423 [1:34:18<11:46:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1817/15423 [1:34:18<11:46:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1818/15423 [1:34:20<11:45:59,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1818/15423 [1:34:20<11:45:59,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1819/15423 [1:34:23<11:45:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1819/15423 [1:34:23<11:45:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1820/15423 [1:34:26<11:45:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1820/15423 [1:34:26<11:45:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1821/15423 [1:34:30<11:45:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1821/15423 [1:34:30<11:45:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1822/15423 [1:34:32<11:45:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1822/15423 [1:34:32<11:45:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1823/15423 [1:34:35<11:45:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1823/15423 [1:34:35<11:45:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1824/15423 [1:34:58<11:48:04,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1824/15423 [1:34:58<11:48:04,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1825/15423 [1:35:01<11:48:03,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1825/15423 [1:35:01<11:48:04,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1826/15423 [1:35:06<11:48:10,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1826/15423 [1:35:06<11:48:10,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1827/15423 [1:35:07<11:47:56,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1827/15423 [1:35:07<11:47:56,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1828/15423 [1:35:09<11:47:42,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1828/15423 [1:35:09<11:47:42,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1829/15423 [1:35:11<11:47:28,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1829/15423 [1:35:11<11:47:28,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1830/15423 [1:35:15<11:47:30,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1830/15423 [1:35:15<11:47:30,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1831/15423 [1:35:18<11:47:32,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1831/15423 [1:35:18<11:47:32,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1832/15423 [1:35:22<11:47:34,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1832/15423 [1:35:22<11:47:34,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1833/15423 [1:35:24<11:47:24,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1833/15423 [1:35:24<11:47:24,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1834/15423 [1:35:26<11:47:10,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1834/15423 [1:35:26<11:47:10,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1835/15423 [1:35:30<11:47:12,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1835/15423 [1:35:30<11:47:12,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1836/15423 [1:35:31<11:46:55,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1836/15423 [1:35:31<11:46:55,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1837/15423 [1:35:32<11:46:33,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1837/15423 [1:35:32<11:46:33,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1838/15423 [1:35:34<11:46:27,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1838/15423 [1:35:34<11:46:27,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1839/15423 [1:35:36<11:46:10,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1839/15423 [1:35:36<11:46:10,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1840/15423 [1:35:36<11:45:49,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1840/15423 [1:35:36<11:45:49,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1841/15423 [1:35:38<11:45:32,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1841/15423 [1:35:38<11:45:32,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1842/15423 [1:35:38<11:45:11,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1842/15423 [1:35:38<11:45:11,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1843/15423 [1:35:40<11:44:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1843/15423 [1:35:40<11:44:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1844/15423 [1:35:44<11:45:04,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1844/15423 [1:35:44<11:45:04,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1845/15423 [1:35:47<11:44:58,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1845/15423 [1:35:47<11:44:58,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1846/15423 [1:35:50<11:44:53,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1846/15423 [1:35:50<11:44:53,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1847/15423 [1:35:53<11:44:51,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1847/15423 [1:35:53<11:44:51,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1848/15423 [1:35:55<11:44:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1848/15423 [1:35:55<11:44:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1849/15423 [1:35:56<11:44:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1849/15423 [1:35:56<11:44:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1850/15423 [1:35:57<11:44:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1850/15423 [1:35:57<11:44:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1851/15423 [1:36:00<11:43:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1851/15423 [1:36:00<11:43:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1852/15423 [1:36:01<11:43:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1852/15423 [1:36:01<11:43:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1853/15423 [1:36:06<11:43:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1853/15423 [1:36:06<11:43:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1854/15423 [1:36:08<11:43:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1854/15423 [1:36:08<11:43:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1855/15423 [1:36:10<11:43:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1855/15423 [1:36:10<11:43:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\u001b[34m\u001b[1mwandb\u001b[0m: Network error (ReadTimeout), entering retry loop.\r\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1856/15423 [1:36:27<11:45:07,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1856/15423 [1:36:27<11:45:07,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1857/15423 [1:36:28<11:44:50,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1857/15423 [1:36:28<11:44:50,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1858/15423 [1:36:30<11:44:33,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1858/15423 [1:36:30<11:44:33,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1859/15423 [1:36:31<11:44:20,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1859/15423 [1:36:31<11:44:20,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1860/15423 [1:36:35<11:44:22,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1860/15423 [1:36:35<11:44:22,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1861/15423 [1:36:36<11:44:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1861/15423 [1:36:36<11:44:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1862/15423 [1:36:37<11:43:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1862/15423 [1:36:37<11:43:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1863/15423 [1:36:39<11:43:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1863/15423 [1:36:39<11:43:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1864/15423 [1:36:43<11:43:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1864/15423 [1:36:43<11:43:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1865/15423 [1:36:44<11:43:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1865/15423 [1:36:44<11:43:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1866/15423 [1:36:46<11:43:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1866/15423 [1:36:46<11:43:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1867/15423 [1:36:48<11:42:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1867/15423 [1:36:48<11:42:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1868/15423 [1:36:53<11:43:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1868/15423 [1:36:53<11:43:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1869/15423 [1:36:53<11:42:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1869/15423 [1:36:53<11:42:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1870/15423 [1:36:55<11:42:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1870/15423 [1:36:55<11:42:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1871/15423 [1:36:57<11:42:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1871/15423 [1:36:57<11:42:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1872/15423 [1:36:59<11:42:06,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1872/15423 [1:36:59<11:42:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1873/15423 [1:37:02<11:42:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1873/15423 [1:37:02<11:42:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1874/15423 [1:37:06<11:42:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1874/15423 [1:37:06<11:42:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1875/15423 [1:37:07<11:41:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1875/15423 [1:37:07<11:41:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1876/15423 [1:37:10<11:41:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1876/15423 [1:37:10<11:41:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1877/15423 [1:37:13<11:41:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1877/15423 [1:37:13<11:41:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1878/15423 [1:37:13<11:41:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1878/15423 [1:37:13<11:41:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1879/15423 [1:37:16<11:41:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1879/15423 [1:37:16<11:41:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1880/15423 [1:37:20<11:41:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1880/15423 [1:37:20<11:41:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1881/15423 [1:37:23<11:41:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1881/15423 [1:37:23<11:41:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1882/15423 [1:37:26<11:41:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1882/15423 [1:37:26<11:41:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1883/15423 [1:37:29<11:41:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1883/15423 [1:37:29<11:41:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1884/15423 [1:37:34<11:41:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1884/15423 [1:37:34<11:41:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1885/15423 [1:37:36<11:41:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1885/15423 [1:37:36<11:41:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1886/15423 [1:37:38<11:40:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1886/15423 [1:37:38<11:40:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1887/15423 [1:37:40<11:40:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1887/15423 [1:37:40<11:40:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1888/15423 [1:38:04<11:43:08,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1888/15423 [1:38:04<11:43:08,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1889/15423 [1:38:05<11:42:48,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1889/15423 [1:38:05<11:42:48,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1890/15423 [1:38:07<11:42:39,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1890/15423 [1:38:07<11:42:39,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1891/15423 [1:38:11<11:42:37,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1891/15423 [1:38:11<11:42:37,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1892/15423 [1:38:12<11:42:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1892/15423 [1:38:12<11:42:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1893/15423 [1:38:13<11:41:59,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1893/15423 [1:38:13<11:41:59,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1894/15423 [1:38:16<11:41:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1894/15423 [1:38:16<11:41:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1895/15423 [1:38:17<11:41:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1895/15423 [1:38:17<11:41:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1896/15423 [1:38:20<11:41:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1896/15423 [1:38:20<11:41:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1897/15423 [1:38:22<11:41:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1897/15423 [1:38:22<11:41:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1898/15423 [1:38:24<11:41:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1898/15423 [1:38:24<11:41:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1899/15423 [1:38:27<11:41:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1899/15423 [1:38:27<11:41:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1900/15423 [1:38:29<11:41:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1900/15423 [1:38:29<11:41:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1901/15423 [1:38:33<11:41:06,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1901/15423 [1:38:33<11:41:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1902/15423 [1:38:34<11:40:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1902/15423 [1:38:34<11:40:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1903/15423 [1:38:37<11:40:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1903/15423 [1:38:37<11:40:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1904/15423 [1:38:38<11:40:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1904/15423 [1:38:38<11:40:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1905/15423 [1:38:42<11:40:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1905/15423 [1:38:42<11:40:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1906/15423 [1:38:44<11:40:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1906/15423 [1:38:44<11:40:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1907/15423 [1:38:47<11:40:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1907/15423 [1:38:47<11:40:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1908/15423 [1:38:50<11:40:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1908/15423 [1:38:50<11:40:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1909/15423 [1:38:52<11:39:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1909/15423 [1:38:52<11:39:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1910/15423 [1:38:53<11:39:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1910/15423 [1:38:53<11:39:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1911/15423 [1:38:55<11:39:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1911/15423 [1:38:55<11:39:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1912/15423 [1:38:59<11:39:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1912/15423 [1:38:59<11:39:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1913/15423 [1:39:03<11:39:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1913/15423 [1:39:03<11:39:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1914/15423 [1:39:05<11:39:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1914/15423 [1:39:05<11:39:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1915/15423 [1:39:09<11:39:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1915/15423 [1:39:09<11:39:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1916/15423 [1:39:11<11:39:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1916/15423 [1:39:11<11:39:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1917/15423 [1:39:15<11:39:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1917/15423 [1:39:15<11:39:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1918/15423 [1:39:17<11:39:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1918/15423 [1:39:17<11:39:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1919/15423 [1:39:19<11:38:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1919/15423 [1:39:19<11:38:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1920/15423 [1:39:43<11:41:19,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1920/15423 [1:39:43<11:41:19,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1921/15423 [1:39:46<11:41:13,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1921/15423 [1:39:46<11:41:13,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1922/15423 [1:39:46<11:40:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1922/15423 [1:39:46<11:40:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1923/15423 [1:39:49<11:40:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1923/15423 [1:39:49<11:40:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1924/15423 [1:39:53<11:40:52,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1924/15423 [1:39:53<11:40:52,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1925/15423 [1:39:58<11:40:58,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1925/15423 [1:39:58<11:40:58,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1926/15423 [1:40:02<11:41:02,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1926/15423 [1:40:02<11:41:02,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  12%| | 1927/15423 [1:40:05<11:41:00,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  12%| | 1927/15423 [1:40:05<11:41:00,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1928/15423 [1:40:07<11:40:47,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1928/15423 [1:40:07<11:40:47,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1929/15423 [1:40:08<11:40:34,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1929/15423 [1:40:08<11:40:34,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1930/15423 [1:40:10<11:40:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1930/15423 [1:40:10<11:40:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1931/15423 [1:40:13<11:40:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1931/15423 [1:40:13<11:40:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1932/15423 [1:40:18<11:40:24,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1932/15423 [1:40:18<11:40:24,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1933/15423 [1:40:20<11:40:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1933/15423 [1:40:20<11:40:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1934/15423 [1:40:20<11:39:52,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1934/15423 [1:40:20<11:39:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1935/15423 [1:40:22<11:39:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1935/15423 [1:40:22<11:39:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1936/15423 [1:40:25<11:39:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1936/15423 [1:40:25<11:39:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1937/15423 [1:40:27<11:39:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1937/15423 [1:40:27<11:39:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1938/15423 [1:40:30<11:39:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1938/15423 [1:40:30<11:39:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1939/15423 [1:40:31<11:39:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1939/15423 [1:40:31<11:39:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1940/15423 [1:40:36<11:39:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1940/15423 [1:40:36<11:39:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1941/15423 [1:40:38<11:39:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1941/15423 [1:40:38<11:39:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1942/15423 [1:40:41<11:38:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1942/15423 [1:40:41<11:38:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1943/15423 [1:40:44<11:38:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1943/15423 [1:40:44<11:38:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1944/15423 [1:40:48<11:38:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1944/15423 [1:40:48<11:38:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1945/15423 [1:40:51<11:38:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1945/15423 [1:40:51<11:38:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1946/15423 [1:40:53<11:38:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1946/15423 [1:40:53<11:38:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1947/15423 [1:40:54<11:38:29,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1947/15423 [1:40:54<11:38:29,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1948/15423 [1:40:56<11:38:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1948/15423 [1:40:56<11:38:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1949/15423 [1:41:00<11:38:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1949/15423 [1:41:00<11:38:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1950/15423 [1:41:02<11:38:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1950/15423 [1:41:02<11:38:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1951/15423 [1:41:05<11:38:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1951/15423 [1:41:05<11:38:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1952/15423 [1:41:23<11:39:40,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1952/15423 [1:41:23<11:39:40,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1953/15423 [1:41:25<11:39:34,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1953/15423 [1:41:25<11:39:34,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1954/15423 [1:41:27<11:39:21,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1954/15423 [1:41:27<11:39:21,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1955/15423 [1:41:28<11:39:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1955/15423 [1:41:28<11:39:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1956/15423 [1:41:33<11:39:10,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1956/15423 [1:41:33<11:39:10,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1957/15423 [1:41:37<11:39:15,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1957/15423 [1:41:37<11:39:15,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1958/15423 [1:41:41<11:39:21,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1958/15423 [1:41:41<11:39:21,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1959/15423 [1:41:46<11:39:26,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1959/15423 [1:41:46<11:39:26,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1960/15423 [1:41:47<11:39:10,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1960/15423 [1:41:47<11:39:10,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1961/15423 [1:41:49<11:39:00,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1961/15423 [1:41:49<11:39:00,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1962/15423 [1:41:51<11:38:51,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1962/15423 [1:41:51<11:38:51,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1963/15423 [1:41:56<11:38:56,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1963/15423 [1:41:56<11:38:56,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1964/15423 [1:41:57<11:38:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1964/15423 [1:41:57<11:38:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1965/15423 [1:41:57<11:38:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1965/15423 [1:41:57<11:38:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1966/15423 [1:41:59<11:38:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1966/15423 [1:41:59<11:38:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1967/15423 [1:42:02<11:38:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1967/15423 [1:42:02<11:38:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1968/15423 [1:42:06<11:38:06,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1968/15423 [1:42:06<11:38:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1969/15423 [1:42:10<11:38:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1969/15423 [1:42:10<11:38:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1970/15423 [1:42:13<11:38:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1970/15423 [1:42:13<11:38:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1971/15423 [1:42:14<11:37:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1971/15423 [1:42:14<11:37:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1972/15423 [1:42:16<11:37:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1972/15423 [1:42:16<11:37:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1973/15423 [1:42:18<11:37:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1973/15423 [1:42:18<11:37:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1974/15423 [1:42:20<11:37:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1974/15423 [1:42:20<11:37:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1975/15423 [1:42:22<11:37:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1975/15423 [1:42:22<11:37:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1976/15423 [1:42:26<11:37:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1976/15423 [1:42:26<11:37:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1977/15423 [1:42:31<11:37:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1977/15423 [1:42:31<11:37:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1978/15423 [1:42:32<11:36:59,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1978/15423 [1:42:32<11:36:59,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1979/15423 [1:42:36<11:37:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1979/15423 [1:42:36<11:37:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1980/15423 [1:42:39<11:36:59,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1980/15423 [1:42:39<11:36:59,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1981/15423 [1:42:43<11:37:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1981/15423 [1:42:43<11:37:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1982/15423 [1:42:45<11:36:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1982/15423 [1:42:45<11:36:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1983/15423 [1:42:49<11:36:52,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1983/15423 [1:42:49<11:36:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1984/15423 [1:43:05<11:38:19,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1984/15423 [1:43:05<11:38:19,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1985/15423 [1:43:08<11:38:14,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1985/15423 [1:43:08<11:38:14,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1986/15423 [1:43:11<11:38:12,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1986/15423 [1:43:11<11:38:12,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1987/15423 [1:43:12<11:37:53,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1987/15423 [1:43:12<11:37:53,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1988/15423 [1:43:14<11:37:44,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1988/15423 [1:43:14<11:37:44,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1989/15423 [1:43:15<11:37:28,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1989/15423 [1:43:15<11:37:28,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1990/15423 [1:43:18<11:37:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1990/15423 [1:43:18<11:37:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1991/15423 [1:43:20<11:37:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1991/15423 [1:43:20<11:37:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1992/15423 [1:43:23<11:37:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1992/15423 [1:43:23<11:37:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1993/15423 [1:43:25<11:36:59,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1993/15423 [1:43:25<11:36:59,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1994/15423 [1:43:29<11:37:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1994/15423 [1:43:29<11:37:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1995/15423 [1:43:30<11:36:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1995/15423 [1:43:30<11:36:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1996/15423 [1:43:34<11:36:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1996/15423 [1:43:34<11:36:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|���| 1997/15423 [1:43:38<11:36:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1997/15423 [1:43:38<11:36:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1998/15423 [1:43:42<11:36:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1998/15423 [1:43:42<11:36:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 1999/15423 [1:43:44<11:36:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 1999/15423 [1:43:44<11:36:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2000/15423 [1:43:46<11:36:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2000/15423 [1:43:46<11:36:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2001/15423 [1:43:47<11:36:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2001/15423 [1:43:47<11:36:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2002/15423 [1:43:50<11:36:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2002/15423 [1:43:50<11:36:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2003/15423 [1:43:55<11:36:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2003/15423 [1:43:55<11:36:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2004/15423 [1:43:58<11:36:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2004/15423 [1:43:58<11:36:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2005/15423 [1:44:02<11:36:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2005/15423 [1:44:02<11:36:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2006/15423 [1:44:04<11:36:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2006/15423 [1:44:04<11:36:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2007/15423 [1:44:07<11:36:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2007/15423 [1:44:07<11:36:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2008/15423 [1:44:07<11:35:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2008/15423 [1:44:07<11:35:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2009/15423 [1:44:11<11:35:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2009/15423 [1:44:11<11:35:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2010/15423 [1:44:14<11:35:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2010/15423 [1:44:14<11:35:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2011/15423 [1:44:18<11:35:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2011/15423 [1:44:18<11:35:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2012/15423 [1:44:23<11:35:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2012/15423 [1:44:23<11:35:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2013/15423 [1:44:24<11:35:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2013/15423 [1:44:24<11:35:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2014/15423 [1:44:28<11:35:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2014/15423 [1:44:28<11:35:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2015/15423 [1:44:30<11:35:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2015/15423 [1:44:30<11:35:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2016/15423 [1:44:41<11:36:10,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2016/15423 [1:44:41<11:36:10,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2017/15423 [1:44:43<11:36:01,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2017/15423 [1:44:43<11:36:01,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2018/15423 [1:44:47<11:36:03,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2018/15423 [1:44:47<11:36:03,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2019/15423 [1:44:49<11:35:57,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2019/15423 [1:44:49<11:35:57,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2020/15423 [1:44:53<11:35:56,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2020/15423 [1:44:53<11:35:56,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2021/15423 [1:44:55<11:35:50,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2021/15423 [1:44:55<11:35:50,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2022/15423 [1:44:57<11:35:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2022/15423 [1:44:57<11:35:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2023/15423 [1:45:01<11:35:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2023/15423 [1:45:01<11:35:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2024/15423 [1:45:03<11:35:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2024/15423 [1:45:03<11:35:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2025/15423 [1:45:05<11:35:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2025/15423 [1:45:05<11:35:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2026/15423 [1:45:07<11:35:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2026/15423 [1:45:07<11:35:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2027/15423 [1:45:10<11:35:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2027/15423 [1:45:10<11:35:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2028/15423 [1:45:12<11:34:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2028/15423 [1:45:12<11:34:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2029/15423 [1:45:14<11:34:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2029/15423 [1:45:14<11:34:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2030/15423 [1:45:15<11:34:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2030/15423 [1:45:15<11:34:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2031/15423 [1:45:18<11:34:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2031/15423 [1:45:18<11:34:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2032/15423 [1:45:20<11:34:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2032/15423 [1:45:20<11:34:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2033/15423 [1:45:22<11:34:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2033/15423 [1:45:22<11:34:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2034/15423 [1:45:26<11:34:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2034/15423 [1:45:26<11:34:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2035/15423 [1:45:27<11:33:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2035/15423 [1:45:27<11:33:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2036/15423 [1:45:29<11:33:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2036/15423 [1:45:29<11:33:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2037/15423 [1:45:33<11:33:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2037/15423 [1:45:33<11:33:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2038/15423 [1:45:35<11:33:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2038/15423 [1:45:35<11:33:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2039/15423 [1:45:36<11:33:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2039/15423 [1:45:36<11:33:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2040/15423 [1:45:40<11:33:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2040/15423 [1:45:40<11:33:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2041/15423 [1:45:41<11:33:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2041/15423 [1:45:41<11:33:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2042/15423 [1:45:45<11:32:59,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2042/15423 [1:45:45<11:32:59,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2043/15423 [1:45:45<11:32:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2043/15423 [1:45:45<11:32:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2044/15423 [1:45:47<11:32:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2044/15423 [1:45:47<11:32:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2045/15423 [1:45:50<11:32:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2045/15423 [1:45:50<11:32:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2046/15423 [1:45:53<11:32:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2046/15423 [1:45:53<11:32:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2047/15423 [1:45:54<11:32:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2047/15423 [1:45:54<11:32:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2048/15423 [1:46:12<11:33:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2048/15423 [1:46:12<11:33:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2049/15423 [1:46:15<11:33:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2049/15423 [1:46:15<11:33:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2050/15423 [1:46:16<11:33:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2050/15423 [1:46:16<11:33:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2051/15423 [1:46:17<11:33:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2051/15423 [1:46:17<11:33:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2052/15423 [1:46:20<11:32:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2052/15423 [1:46:20<11:32:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2053/15423 [1:46:22<11:32:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2053/15423 [1:46:22<11:32:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2054/15423 [1:46:26<11:32:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2054/15423 [1:46:26<11:32:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2055/15423 [1:46:28<11:32:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2055/15423 [1:46:28<11:32:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2056/15423 [1:46:32<11:32:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2056/15423 [1:46:32<11:32:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2057/15423 [1:46:36<11:32:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2057/15423 [1:46:36<11:32:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2058/15423 [1:46:36<11:32:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2058/15423 [1:46:36<11:32:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2059/15423 [1:46:38<11:32:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2059/15423 [1:46:38<11:32:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2060/15423 [1:46:40<11:32:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2060/15423 [1:46:40<11:32:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2061/15423 [1:46:43<11:31:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2061/15423 [1:46:43<11:31:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2062/15423 [1:46:47<11:31:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2062/15423 [1:46:47<11:31:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2063/15423 [1:46:52<11:32:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2063/15423 [1:46:52<11:32:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2064/15423 [1:46:56<11:32:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2064/15423 [1:46:56<11:32:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2065/15423 [1:46:58<11:31:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2065/15423 [1:46:58<11:31:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2066/15423 [1:47:01<11:31:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2066/15423 [1:47:01<11:31:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2067/15423 [1:47:03<11:31:48,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2067/15423 [1:47:03<11:31:48,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2068/15423 [1:47:07<11:31:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2068/15423 [1:47:07<11:31:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2069/15423 [1:47:11<11:31:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2069/15423 [1:47:11<11:31:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2070/15423 [1:47:15<11:31:52,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2070/15423 [1:47:15<11:31:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2071/15423 [1:47:17<11:31:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2071/15423 [1:47:17<11:31:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2072/15423 [1:47:18<11:31:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2072/15423 [1:47:18<11:31:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2073/15423 [1:47:20<11:31:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2073/15423 [1:47:20<11:31:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2074/15423 [1:47:21<11:31:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2074/15423 [1:47:21<11:31:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2075/15423 [1:47:25<11:31:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2075/15423 [1:47:25<11:31:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2076/15423 [1:47:27<11:30:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2076/15423 [1:47:27<11:30:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2077/15423 [1:47:30<11:30:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2077/15423 [1:47:30<11:30:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2078/15423 [1:47:34<11:30:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2078/15423 [1:47:34<11:30:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2079/15423 [1:47:36<11:30:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2079/15423 [1:47:36<11:30:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2080/15423 [1:47:47<11:31:29,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2080/15423 [1:47:47<11:31:29,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2081/15423 [1:47:48<11:31:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2081/15423 [1:47:48<11:31:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  13%|▏| 2082/15423 [1:47:52<11:31:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  13%|▏| 2082/15423 [1:47:52<11:31:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2083/15423 [1:47:53<11:30:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2083/15423 [1:47:53<11:30:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2084/15423 [1:47:56<11:30:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2084/15423 [1:47:56<11:30:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2085/15423 [1:48:00<11:30:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2085/15423 [1:48:00<11:30:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2086/15423 [1:48:03<11:30:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2086/15423 [1:48:03<11:30:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2087/15423 [1:48:06<11:30:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2087/15423 [1:48:06<11:30:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2088/15423 [1:48:09<11:30:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2088/15423 [1:48:09<11:30:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2089/15423 [1:48:13<11:30:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2089/15423 [1:48:13<11:30:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2090/15423 [1:48:15<11:30:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2090/15423 [1:48:15<11:30:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2091/15423 [1:48:17<11:30:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2091/15423 [1:48:17<11:30:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2092/15423 [1:48:21<11:30:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2092/15423 [1:48:21<11:30:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2093/15423 [1:48:24<11:30:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2093/15423 [1:48:24<11:30:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2094/15423 [1:48:27<11:30:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2094/15423 [1:48:27<11:30:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2095/15423 [1:48:31<11:30:26,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2095/15423 [1:48:31<11:30:26,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2096/15423 [1:48:33<11:30:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2096/15423 [1:48:33<11:30:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2097/15423 [1:48:34<11:29:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2097/15423 [1:48:34<11:29:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2098/15423 [1:48:36<11:29:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2098/15423 [1:48:36<11:29:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2099/15423 [1:48:40<11:29:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2099/15423 [1:48:40<11:29:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2100/15423 [1:48:43<11:29:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2100/15423 [1:48:43<11:29:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2101/15423 [1:48:43<11:29:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2101/15423 [1:48:43<11:29:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2102/15423 [1:48:47<11:29:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2102/15423 [1:48:47<11:29:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2103/15423 [1:48:49<11:29:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2103/15423 [1:48:49<11:29:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2104/15423 [1:48:51<11:29:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2104/15423 [1:48:51<11:29:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2105/15423 [1:48:53<11:28:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2105/15423 [1:48:53<11:28:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2106/15423 [1:48:57<11:28:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2106/15423 [1:48:57<11:28:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2107/15423 [1:49:01<11:29:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2107/15423 [1:49:01<11:29:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2108/15423 [1:49:05<11:29:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2108/15423 [1:49:05<11:29:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2109/15423 [1:49:06<11:28:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2109/15423 [1:49:06<11:28:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2110/15423 [1:49:11<11:28:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2110/15423 [1:49:11<11:28:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2111/15423 [1:49:11<11:28:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2111/15423 [1:49:11<11:28:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2112/15423 [1:49:23<11:29:26,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2112/15423 [1:49:23<11:29:26,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2113/15423 [1:49:26<11:29:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2113/15423 [1:49:26<11:29:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2114/15423 [1:49:30<11:29:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2114/15423 [1:49:30<11:29:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2115/15423 [1:49:30<11:29:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2115/15423 [1:49:30<11:29:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2116/15423 [1:49:34<11:29:06,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2116/15423 [1:49:34<11:29:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2117/15423 [1:49:38<11:29:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2117/15423 [1:49:38<11:29:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2118/15423 [1:49:40<11:28:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2118/15423 [1:49:40<11:28:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2119/15423 [1:49:43<11:28:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2119/15423 [1:49:43<11:28:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2120/15423 [1:49:45<11:28:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2120/15423 [1:49:45<11:28:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2121/15423 [1:49:48<11:28:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2121/15423 [1:49:48<11:28:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2122/15423 [1:49:52<11:28:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2122/15423 [1:49:52<11:28:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2123/15423 [1:49:56<11:28:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2123/15423 [1:49:56<11:28:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2124/15423 [1:50:00<11:28:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2124/15423 [1:50:00<11:28:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2125/15423 [1:50:02<11:28:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2125/15423 [1:50:02<11:28:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2126/15423 [1:50:06<11:28:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2126/15423 [1:50:06<11:28:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2127/15423 [1:50:10<11:28:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2127/15423 [1:50:10<11:28:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2128/15423 [1:50:14<11:28:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2128/15423 [1:50:14<11:28:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2129/15423 [1:50:15<11:28:29,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2129/15423 [1:50:15<11:28:29,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2130/15423 [1:50:18<11:28:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2130/15423 [1:50:18<11:28:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2131/15423 [1:50:22<11:28:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2131/15423 [1:50:22<11:28:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2132/15423 [1:50:24<11:28:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2132/15423 [1:50:24<11:28:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2133/15423 [1:50:28<11:28:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2133/15423 [1:50:28<11:28:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2134/15423 [1:50:32<11:28:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2134/15423 [1:50:32<11:28:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2135/15423 [1:50:34<11:28:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2135/15423 [1:50:34<11:28:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2136/15423 [1:50:37<11:28:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2136/15423 [1:50:37<11:28:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2137/15423 [1:50:39<11:28:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2137/15423 [1:50:39<11:28:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2138/15423 [1:50:41<11:27:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2138/15423 [1:50:41<11:27:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2139/15423 [1:50:43<11:27:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2139/15423 [1:50:43<11:27:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2140/15423 [1:50:45<11:27:29,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2140/15423 [1:50:45<11:27:29,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2141/15423 [1:50:47<11:27:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2141/15423 [1:50:47<11:27:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2142/15423 [1:50:48<11:26:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2142/15423 [1:50:48<11:26:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2143/15423 [1:50:49<11:26:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2143/15423 [1:50:49<11:26:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2144/15423 [1:50:59<11:27:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2144/15423 [1:50:59<11:27:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2145/15423 [1:51:03<11:27:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2145/15423 [1:51:03<11:27:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2146/15423 [1:51:08<11:27:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2146/15423 [1:51:08<11:27:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2147/15423 [1:51:10<11:27:29,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2147/15423 [1:51:10<11:27:29,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2148/15423 [1:51:13<11:27:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2148/15423 [1:51:13<11:27:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2149/15423 [1:51:16<11:27:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2149/15423 [1:51:16<11:27:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2150/15423 [1:51:20<11:27:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2150/15423 [1:51:20<11:27:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2151/15423 [1:51:22<11:27:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2151/15423 [1:51:22<11:27:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2152/15423 [1:51:25<11:27:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2152/15423 [1:51:25<11:27:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2153/15423 [1:51:27<11:26:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2153/15423 [1:51:27<11:26:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2154/15423 [1:51:31<11:27:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2154/15423 [1:51:31<11:27:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2155/15423 [1:51:35<11:27:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2155/15423 [1:51:35<11:27:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2156/15423 [1:51:39<11:27:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2156/15423 [1:51:39<11:27:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2157/15423 [1:51:40<11:26:52,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2157/15423 [1:51:40<11:26:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2158/15423 [1:51:43<11:26:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2158/15423 [1:51:43<11:26:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2159/15423 [1:51:46<11:26:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2159/15423 [1:51:46<11:26:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2160/15423 [1:51:48<11:26:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2160/15423 [1:51:48<11:26:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2161/15423 [1:51:52<11:26:35,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2161/15423 [1:51:52<11:26:35,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2162/15423 [1:51:53<11:26:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2162/15423 [1:51:53<11:26:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2163/15423 [1:51:57<11:26:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2163/15423 [1:51:57<11:26:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2164/15423 [1:51:59<11:26:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2164/15423 [1:51:59<11:26:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2165/15423 [1:52:01<11:25:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2165/15423 [1:52:01<11:25:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2166/15423 [1:52:04<11:25:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2166/15423 [1:52:04<11:25:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2167/15423 [1:52:05<11:25:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2167/15423 [1:52:05<11:25:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2168/15423 [1:52:08<11:25:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2168/15423 [1:52:08<11:25:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2169/15423 [1:52:09<11:25:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2169/15423 [1:52:09<11:25:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2170/15423 [1:52:10<11:25:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2170/15423 [1:52:10<11:25:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2171/15423 [1:52:14<11:25:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2171/15423 [1:52:14<11:25:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2172/15423 [1:52:17<11:25:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2172/15423 [1:52:17<11:25:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2173/15423 [1:52:19<11:24:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2173/15423 [1:52:19<11:24:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2174/15423 [1:52:21<11:24:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2174/15423 [1:52:21<11:24:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2175/15423 [1:52:23<11:24:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2175/15423 [1:52:23<11:24:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2176/15423 [1:52:38<11:25:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2176/15423 [1:52:38<11:25:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2177/15423 [1:52:40<11:25:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2177/15423 [1:52:40<11:25:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2178/15423 [1:52:43<11:25:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2178/15423 [1:52:43<11:25:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2179/15423 [1:52:47<11:25:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2179/15423 [1:52:47<11:25:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2180/15423 [1:52:51<11:25:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2180/15423 [1:52:51<11:25:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2181/15423 [1:52:52<11:25:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2181/15423 [1:52:52<11:25:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2182/15423 [1:52:56<11:25:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2182/15423 [1:52:56<11:25:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2183/15423 [1:52:56<11:25:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2183/15423 [1:52:56<11:25:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2184/15423 [1:52:58<11:24:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2184/15423 [1:52:58<11:24:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2185/15423 [1:52:59<11:24:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2185/15423 [1:52:59<11:24:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2186/15423 [1:53:00<11:24:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2186/15423 [1:53:00<11:24:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2187/15423 [1:53:04<11:24:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2187/15423 [1:53:04<11:24:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2188/15423 [1:53:06<11:24:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2188/15423 [1:53:06<11:24:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2189/15423 [1:53:07<11:23:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2189/15423 [1:53:07<11:23:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2190/15423 [1:53:09<11:23:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2190/15423 [1:53:09<11:23:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2191/15423 [1:53:12<11:23:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2191/15423 [1:53:12<11:23:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2192/15423 [1:53:14<11:23:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2192/15423 [1:53:14<11:23:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2193/15423 [1:53:15<11:23:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2193/15423 [1:53:15<11:23:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2194/15423 [1:53:18<11:23:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2194/15423 [1:53:18<11:23:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2195/15423 [1:53:22<11:23:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2195/15423 [1:53:22<11:23:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2196/15423 [1:53:25<11:23:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2196/15423 [1:53:25<11:23:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2197/15423 [1:53:28<11:23:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2197/15423 [1:53:28<11:23:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2198/15423 [1:53:29<11:22:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2198/15423 [1:53:29<11:22:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2199/15423 [1:53:34<11:22:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2199/15423 [1:53:34<11:22:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2200/15423 [1:53:36<11:22:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2200/15423 [1:53:36<11:22:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2201/15423 [1:53:39<11:22:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2201/15423 [1:53:39<11:22:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2202/15423 [1:53:39<11:22:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2202/15423 [1:53:39<11:22:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2203/15423 [1:53:40<11:22:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2203/15423 [1:53:40<11:22:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2204/15423 [1:53:44<11:22:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2204/15423 [1:53:44<11:22:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2205/15423 [1:53:46<11:22:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2205/15423 [1:53:46<11:22:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2206/15423 [1:53:47<11:21:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2206/15423 [1:53:47<11:21:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2207/15423 [1:53:51<11:21:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2207/15423 [1:53:51<11:21:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2208/15423 [1:54:19<11:24:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2208/15423 [1:54:19<11:24:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2209/15423 [1:54:23<11:24:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2209/15423 [1:54:23<11:24:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2210/15423 [1:54:26<11:24:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2210/15423 [1:54:26<11:24:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2211/15423 [1:54:29<11:24:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2211/15423 [1:54:29<11:24:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2212/15423 [1:54:34<11:24:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2212/15423 [1:54:34<11:24:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2213/15423 [1:54:38<11:24:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2213/15423 [1:54:38<11:24:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2214/15423 [1:54:42<11:24:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2214/15423 [1:54:42<11:24:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2215/15423 [1:54:46<11:24:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2215/15423 [1:54:46<11:24:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2216/15423 [1:54:48<11:24:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2216/15423 [1:54:48<11:24:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2217/15423 [1:54:52<11:24:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2217/15423 [1:54:52<11:24:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2218/15423 [1:54:52<11:23:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2218/15423 [1:54:52<11:23:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2219/15423 [1:54:53<11:23:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2219/15423 [1:54:53<11:23:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2220/15423 [1:54:58<11:23:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2220/15423 [1:54:58<11:23:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2221/15423 [1:55:00<11:23:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2221/15423 [1:55:00<11:23:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2222/15423 [1:55:00<11:23:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2222/15423 [1:55:00<11:23:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2223/15423 [1:55:04<11:23:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2223/15423 [1:55:04<11:23:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2224/15423 [1:55:05<11:23:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2224/15423 [1:55:05<11:23:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2225/15423 [1:55:08<11:23:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2225/15423 [1:55:08<11:23:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2226/15423 [1:55:11<11:22:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2226/15423 [1:55:11<11:22:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2227/15423 [1:55:16<11:23:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2227/15423 [1:55:16<11:23:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2228/15423 [1:55:17<11:22:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2228/15423 [1:55:17<11:22:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2229/15423 [1:55:20<11:22:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2229/15423 [1:55:20<11:22:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2230/15423 [1:55:23<11:22:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2230/15423 [1:55:23<11:22:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2231/15423 [1:55:27<11:22:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2231/15423 [1:55:27<11:22:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2232/15423 [1:55:30<11:22:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2232/15423 [1:55:30<11:22:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2233/15423 [1:55:32<11:22:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2233/15423 [1:55:32<11:22:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2234/15423 [1:55:33<11:22:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2234/15423 [1:55:33<11:22:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2235/15423 [1:55:36<11:22:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2235/15423 [1:55:36<11:22:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  14%|▏| 2236/15423 [1:55:39<11:22:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  14%|▏| 2236/15423 [1:55:39<11:22:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2237/15423 [1:55:41<11:21:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2237/15423 [1:55:41<11:21:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2238/15423 [1:55:42<11:21:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2238/15423 [1:55:42<11:21:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2239/15423 [1:55:46<11:21:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2239/15423 [1:55:46<11:21:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2240/15423 [1:55:55<11:22:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2240/15423 [1:55:55<11:22:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2241/15423 [1:55:59<11:22:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2241/15423 [1:55:59<11:22:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2242/15423 [1:56:01<11:22:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2242/15423 [1:56:01<11:22:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2243/15423 [1:56:05<11:22:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2243/15423 [1:56:05<11:22:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2244/15423 [1:56:07<11:22:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2244/15423 [1:56:07<11:22:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2245/15423 [1:56:12<11:22:06,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2245/15423 [1:56:12<11:22:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2246/15423 [1:56:13<11:21:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2246/15423 [1:56:13<11:21:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2247/15423 [1:56:15<11:21:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2247/15423 [1:56:15<11:21:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2248/15423 [1:56:18<11:21:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2248/15423 [1:56:18<11:21:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2249/15423 [1:56:20<11:21:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2249/15423 [1:56:20<11:21:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2250/15423 [1:56:22<11:21:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2250/15423 [1:56:22<11:21:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2251/15423 [1:56:25<11:21:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2251/15423 [1:56:25<11:21:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2252/15423 [1:56:26<11:21:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2252/15423 [1:56:26<11:21:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2253/15423 [1:56:29<11:20:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2253/15423 [1:56:29<11:20:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2254/15423 [1:56:31<11:20:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2254/15423 [1:56:31<11:20:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2255/15423 [1:56:35<11:20:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2255/15423 [1:56:35<11:20:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2256/15423 [1:56:37<11:20:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2256/15423 [1:56:37<11:20:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2257/15423 [1:56:39<11:20:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2257/15423 [1:56:39<11:20:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2258/15423 [1:56:41<11:20:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2258/15423 [1:56:41<11:20:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2259/15423 [1:56:46<11:20:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2259/15423 [1:56:46<11:20:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2260/15423 [1:56:50<11:20:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2260/15423 [1:56:50<11:20:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2261/15423 [1:56:52<11:20:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2261/15423 [1:56:52<11:20:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2262/15423 [1:56:56<11:20:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2262/15423 [1:56:56<11:20:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2263/15423 [1:56:57<11:20:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2263/15423 [1:56:57<11:20:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2264/15423 [1:57:00<11:20:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2264/15423 [1:57:00<11:20:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2265/15423 [1:57:04<11:20:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2265/15423 [1:57:04<11:20:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2266/15423 [1:57:05<11:19:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2266/15423 [1:57:05<11:19:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2267/15423 [1:57:07<11:19:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2267/15423 [1:57:07<11:19:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2268/15423 [1:57:11<11:19:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2268/15423 [1:57:11<11:19:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2269/15423 [1:57:13<11:19:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2269/15423 [1:57:13<11:19:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2270/15423 [1:57:15<11:19:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2270/15423 [1:57:15<11:19:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2271/15423 [1:57:16<11:19:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2271/15423 [1:57:16<11:19:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2272/15423 [1:57:31<11:20:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2272/15423 [1:57:31<11:20:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2273/15423 [1:57:36<11:20:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2273/15423 [1:57:36<11:20:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2274/15423 [1:57:38<11:20:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2274/15423 [1:57:38<11:20:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2275/15423 [1:57:41<11:20:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2275/15423 [1:57:41<11:20:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2276/15423 [1:57:45<11:20:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2276/15423 [1:57:45<11:20:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2277/15423 [1:57:47<11:20:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2277/15423 [1:57:47<11:20:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2278/15423 [1:57:48<11:19:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2278/15423 [1:57:48<11:19:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2279/15423 [1:57:53<11:19:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2279/15423 [1:57:53<11:19:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2280/15423 [1:57:56<11:19:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2280/15423 [1:57:56<11:19:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2281/15423 [1:58:01<11:19:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2281/15423 [1:58:01<11:19:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2282/15423 [1:58:05<11:20:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2282/15423 [1:58:05<11:20:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2283/15423 [1:58:06<11:19:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2283/15423 [1:58:06<11:19:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2284/15423 [1:58:07<11:19:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2284/15423 [1:58:07<11:19:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2285/15423 [1:58:10<11:19:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2285/15423 [1:58:10<11:19:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2286/15423 [1:58:10<11:19:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2286/15423 [1:58:10<11:19:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2287/15423 [1:58:14<11:19:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2287/15423 [1:58:14<11:19:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2288/15423 [1:58:17<11:19:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2288/15423 [1:58:17<11:19:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2289/15423 [1:58:20<11:19:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2289/15423 [1:58:20<11:19:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2290/15423 [1:58:24<11:19:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2290/15423 [1:58:24<11:19:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2291/15423 [1:58:26<11:18:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2291/15423 [1:58:26<11:18:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2292/15423 [1:58:29<11:18:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2292/15423 [1:58:29<11:18:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2293/15423 [1:58:33<11:18:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2293/15423 [1:58:33<11:18:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2294/15423 [1:58:34<11:18:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2294/15423 [1:58:34<11:18:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2295/15423 [1:58:36<11:18:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2295/15423 [1:58:36<11:18:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2296/15423 [1:58:40<11:18:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2296/15423 [1:58:40<11:18:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2297/15423 [1:58:43<11:18:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2297/15423 [1:58:43<11:18:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2298/15423 [1:58:45<11:18:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2298/15423 [1:58:45<11:18:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2299/15423 [1:58:50<11:18:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2299/15423 [1:58:50<11:18:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2300/15423 [1:58:52<11:18:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2300/15423 [1:58:52<11:18:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2301/15423 [1:58:53<11:18:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2301/15423 [1:58:53<11:18:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2302/15423 [1:58:57<11:18:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2302/15423 [1:58:57<11:18:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2303/15423 [1:58:59<11:17:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2303/15423 [1:58:59<11:17:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2304/15423 [1:59:11<11:18:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2304/15423 [1:59:11<11:18:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2305/15423 [1:59:13<11:18:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2305/15423 [1:59:13<11:18:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2306/15423 [1:59:15<11:18:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2306/15423 [1:59:15<11:18:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2307/15423 [1:59:16<11:18:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2307/15423 [1:59:16<11:18:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2308/15423 [1:59:18<11:17:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2308/15423 [1:59:18<11:17:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2309/15423 [1:59:20<11:17:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2309/15423 [1:59:20<11:17:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2310/15423 [1:59:22<11:17:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2310/15423 [1:59:22<11:17:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2311/15423 [1:59:24<11:17:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2311/15423 [1:59:24<11:17:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2312/15423 [1:59:25<11:17:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2312/15423 [1:59:25<11:17:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2313/15423 [1:59:29<11:17:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2313/15423 [1:59:29<11:17:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2314/15423 [1:59:29<11:16:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2314/15423 [1:59:29<11:16:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2315/15423 [1:59:31<11:16:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2315/15423 [1:59:31<11:16:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2316/15423 [1:59:33<11:16:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2316/15423 [1:59:33<11:16:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2317/15423 [1:59:35<11:16:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2317/15423 [1:59:35<11:16:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2318/15423 [1:59:36<11:16:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2318/15423 [1:59:36<11:16:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2319/15423 [1:59:37<11:16:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2319/15423 [1:59:37<11:16:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2320/15423 [1:59:40<11:15:52,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2320/15423 [1:59:40<11:15:52,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2321/15423 [1:59:43<11:15:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2321/15423 [1:59:43<11:15:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2322/15423 [1:59:45<11:15:39,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2322/15423 [1:59:45<11:15:39,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2323/15423 [1:59:47<11:15:34,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2323/15423 [1:59:47<11:15:34,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2324/15423 [1:59:52<11:15:38,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2324/15423 [1:59:52<11:15:38,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2325/15423 [1:59:52<11:15:21,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2325/15423 [1:59:52<11:15:21,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2326/15423 [1:59:54<11:15:10,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2326/15423 [1:59:54<11:15:10,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2327/15423 [1:59:58<11:15:11,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2327/15423 [1:59:58<11:15:11,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2328/15423 [2:00:00<11:15:03,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2328/15423 [2:00:00<11:15:03,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2329/15423 [2:00:03<11:15:01,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2329/15423 [2:00:03<11:15:01,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2330/15423 [2:00:07<11:14:59,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2330/15423 [2:00:07<11:14:59,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2331/15423 [2:00:09<11:14:54,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2331/15423 [2:00:09<11:14:54,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2332/15423 [2:00:11<11:14:43,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2332/15423 [2:00:11<11:14:43,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2333/15423 [2:00:13<11:14:32,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2333/15423 [2:00:13<11:14:32,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2334/15423 [2:00:16<11:14:27,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2334/15423 [2:00:16<11:14:27,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2335/15423 [2:00:17<11:14:17,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2335/15423 [2:00:17<11:14:17,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2336/15423 [2:00:59<11:17:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2336/15423 [2:00:59<11:17:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2337/15423 [2:01:02<11:17:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2337/15423 [2:01:02<11:17:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2338/15423 [2:01:04<11:17:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2338/15423 [2:01:04<11:17:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2339/15423 [2:01:08<11:17:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2339/15423 [2:01:08<11:17:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2340/15423 [2:01:09<11:17:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2340/15423 [2:01:09<11:17:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2341/15423 [2:01:13<11:17:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2341/15423 [2:01:13<11:17:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2342/15423 [2:01:14<11:17:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2342/15423 [2:01:14<11:17:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2343/15423 [2:01:18<11:17:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2343/15423 [2:01:18<11:17:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2344/15423 [2:01:20<11:17:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2344/15423 [2:01:20<11:17:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2345/15423 [2:01:24<11:17:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2345/15423 [2:01:24<11:17:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2346/15423 [2:01:25<11:16:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2346/15423 [2:01:25<11:16:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2347/15423 [2:01:29<11:16:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2347/15423 [2:01:29<11:16:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2348/15423 [2:01:32<11:16:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2348/15423 [2:01:32<11:16:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2349/15423 [2:01:33<11:16:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2349/15423 [2:01:33<11:16:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2350/15423 [2:01:34<11:16:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2350/15423 [2:01:34<11:16:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2351/15423 [2:01:38<11:16:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2351/15423 [2:01:38<11:16:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2352/15423 [2:01:40<11:16:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2352/15423 [2:01:40<11:16:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2353/15423 [2:01:44<11:16:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2353/15423 [2:01:44<11:16:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2354/15423 [2:01:46<11:16:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2354/15423 [2:01:46<11:16:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2355/15423 [2:01:49<11:16:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2355/15423 [2:01:49<11:16:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2356/15423 [2:01:52<11:15:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2356/15423 [2:01:52<11:15:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2357/15423 [2:01:56<11:15:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2357/15423 [2:01:56<11:15:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2358/15423 [2:01:59<11:15:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2358/15423 [2:01:59<11:15:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2359/15423 [2:02:01<11:15:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2359/15423 [2:02:01<11:15:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2360/15423 [2:02:04<11:15:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2360/15423 [2:02:04<11:15:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2361/15423 [2:02:07<11:15:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2361/15423 [2:02:07<11:15:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2362/15423 [2:02:08<11:15:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2362/15423 [2:02:08<11:15:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2363/15423 [2:02:11<11:15:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2363/15423 [2:02:11<11:15:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2364/15423 [2:02:13<11:15:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2364/15423 [2:02:13<11:15:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2365/15423 [2:02:15<11:14:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2365/15423 [2:02:15<11:14:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2366/15423 [2:02:19<11:15:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2366/15423 [2:02:19<11:15:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2367/15423 [2:02:20<11:14:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2367/15423 [2:02:20<11:14:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2368/15423 [2:02:37<11:16:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2368/15423 [2:02:37<11:16:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2369/15423 [2:02:41<11:16:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2369/15423 [2:02:41<11:16:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2370/15423 [2:02:42<11:15:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2370/15423 [2:02:42<11:15:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2371/15423 [2:02:43<11:15:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2371/15423 [2:02:43<11:15:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2372/15423 [2:02:47<11:15:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2372/15423 [2:02:47<11:15:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2373/15423 [2:02:50<11:15:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2373/15423 [2:02:50<11:15:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2374/15423 [2:02:51<11:15:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2374/15423 [2:02:51<11:15:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2375/15423 [2:02:54<11:15:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2375/15423 [2:02:54<11:15:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2376/15423 [2:02:57<11:15:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2376/15423 [2:02:57<11:15:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2377/15423 [2:03:00<11:15:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2377/15423 [2:03:00<11:15:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2378/15423 [2:03:02<11:14:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2378/15423 [2:03:02<11:14:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2379/15423 [2:03:06<11:15:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2379/15423 [2:03:06<11:15:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2380/15423 [2:03:09<11:14:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2380/15423 [2:03:09<11:14:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2381/15423 [2:03:13<11:14:59,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2381/15423 [2:03:13<11:14:59,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2382/15423 [2:03:14<11:14:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2382/15423 [2:03:14<11:14:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2383/15423 [2:03:16<11:14:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2383/15423 [2:03:16<11:14:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2384/15423 [2:03:17<11:14:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2384/15423 [2:03:17<11:14:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2385/15423 [2:03:19<11:14:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2385/15423 [2:03:19<11:14:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2386/15423 [2:03:21<11:14:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2386/15423 [2:03:21<11:14:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2387/15423 [2:03:23<11:13:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2387/15423 [2:03:23<11:13:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2388/15423 [2:03:25<11:13:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2388/15423 [2:03:25<11:13:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2389/15423 [2:03:27<11:13:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2389/15423 [2:03:27<11:13:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  15%|▏| 2390/15423 [2:03:28<11:13:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  15%|▏| 2390/15423 [2:03:28<11:13:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2391/15423 [2:03:33<11:13:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2391/15423 [2:03:33<11:13:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2392/15423 [2:03:35<11:13:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2392/15423 [2:03:35<11:13:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2393/15423 [2:03:40<11:13:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2393/15423 [2:03:40<11:13:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2394/15423 [2:03:41<11:13:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2394/15423 [2:03:41<11:13:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2395/15423 [2:03:45<11:13:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2395/15423 [2:03:45<11:13:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2396/15423 [2:03:47<11:13:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2396/15423 [2:03:47<11:13:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2397/15423 [2:03:51<11:13:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2397/15423 [2:03:51<11:13:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2398/15423 [2:03:53<11:12:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2398/15423 [2:03:53<11:12:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2399/15423 [2:03:55<11:12:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2399/15423 [2:03:55<11:12:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2400/15423 [2:04:16<11:14:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2400/15423 [2:04:16<11:14:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2401/15423 [2:04:42<11:16:19,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2401/15423 [2:04:42<11:16:19,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2402/15423 [2:04:46<11:16:23,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2402/15423 [2:04:46<11:16:23,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2403/15423 [2:04:50<11:16:26,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2403/15423 [2:04:50<11:16:26,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2404/15423 [2:04:55<11:16:30,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2404/15423 [2:04:55<11:16:30,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2405/15423 [2:04:59<11:16:35,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2405/15423 [2:04:59<11:16:35,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2406/15423 [2:05:00<11:16:19,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2406/15423 [2:05:00<11:16:19,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2407/15423 [2:05:03<11:16:17,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2407/15423 [2:05:03<11:16:17,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2408/15423 [2:05:07<11:16:18,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2408/15423 [2:05:07<11:16:18,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2409/15423 [2:05:09<11:16:10,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2409/15423 [2:05:09<11:16:10,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2410/15423 [2:05:12<11:16:05,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2410/15423 [2:05:12<11:16:05,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2411/15423 [2:05:17<11:16:09,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2411/15423 [2:05:17<11:16:09,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2412/15423 [2:05:19<11:16:04,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2412/15423 [2:05:19<11:16:04,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2413/15423 [2:05:20<11:15:47,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2413/15423 [2:05:20<11:15:47,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2414/15423 [2:05:24<11:15:48,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2414/15423 [2:05:24<11:15:48,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2415/15423 [2:05:26<11:15:38,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2415/15423 [2:05:26<11:15:38,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2416/15423 [2:05:30<11:15:41,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2416/15423 [2:05:30<11:15:41,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2417/15423 [2:05:33<11:15:36,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2417/15423 [2:05:33<11:15:36,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2418/15423 [2:05:34<11:15:23,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2418/15423 [2:05:34<11:15:23,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2419/15423 [2:05:37<11:15:18,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2419/15423 [2:05:37<11:15:18,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2420/15423 [2:05:41<11:15:22,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2420/15423 [2:05:41<11:15:22,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2421/15423 [2:05:43<11:15:11,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2421/15423 [2:05:43<11:15:11,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2422/15423 [2:05:47<11:15:12,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2422/15423 [2:05:47<11:15:12,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2423/15423 [2:05:49<11:15:04,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2423/15423 [2:05:49<11:15:04,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2424/15423 [2:05:53<11:15:05,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2424/15423 [2:05:53<11:15:05,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2425/15423 [2:05:54<11:14:52,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2425/15423 [2:05:54<11:14:52,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2426/15423 [2:05:57<11:14:50,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2426/15423 [2:05:57<11:14:50,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2427/15423 [2:05:59<11:14:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2427/15423 [2:05:59<11:14:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2428/15423 [2:06:01<11:14:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2428/15423 [2:06:01<11:14:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2429/15423 [2:06:03<11:14:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2429/15423 [2:06:03<11:14:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2430/15423 [2:06:04<11:14:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2430/15423 [2:06:04<11:14:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2431/15423 [2:06:07<11:14:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2431/15423 [2:06:07<11:14:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2432/15423 [2:06:16<11:14:32,  3.12s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2432/15423 [2:06:16<11:14:32,  3.12s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2433/15423 [2:06:17<11:14:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2433/15423 [2:06:17<11:14:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2434/15423 [2:06:20<11:14:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2434/15423 [2:06:20<11:14:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2435/15423 [2:06:24<11:14:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2435/15423 [2:06:24<11:14:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2436/15423 [2:06:27<11:14:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2436/15423 [2:06:27<11:14:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2437/15423 [2:06:29<11:14:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2437/15423 [2:06:29<11:14:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2438/15423 [2:06:31<11:13:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2438/15423 [2:06:31<11:13:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2439/15423 [2:06:32<11:13:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2439/15423 [2:06:32<11:13:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2440/15423 [2:06:36<11:13:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2440/15423 [2:06:36<11:13:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2441/15423 [2:06:38<11:13:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2441/15423 [2:06:38<11:13:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2442/15423 [2:06:39<11:13:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2442/15423 [2:06:39<11:13:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2443/15423 [2:06:41<11:13:06,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2443/15423 [2:06:41<11:13:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2444/15423 [2:06:43<11:12:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2444/15423 [2:06:43<11:12:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2445/15423 [2:06:44<11:12:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2445/15423 [2:06:44<11:12:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2446/15423 [2:06:45<11:12:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2446/15423 [2:06:45<11:12:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2447/15423 [2:06:46<11:12:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2447/15423 [2:06:46<11:12:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2448/15423 [2:06:50<11:12:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2448/15423 [2:06:50<11:12:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2449/15423 [2:06:54<11:12:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2449/15423 [2:06:54<11:12:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2450/15423 [2:06:57<11:12:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2450/15423 [2:06:57<11:12:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2451/15423 [2:06:58<11:12:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2451/15423 [2:06:58<11:12:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2452/15423 [2:07:00<11:11:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2452/15423 [2:07:00<11:11:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2453/15423 [2:07:04<11:11:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2453/15423 [2:07:04<11:11:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2454/15423 [2:07:08<11:11:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2454/15423 [2:07:08<11:11:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2455/15423 [2:07:10<11:11:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2455/15423 [2:07:10<11:11:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2456/15423 [2:07:14<11:11:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2456/15423 [2:07:14<11:11:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2457/15423 [2:07:15<11:11:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2457/15423 [2:07:15<11:11:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2458/15423 [2:07:17<11:11:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2458/15423 [2:07:17<11:11:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2459/15423 [2:07:20<11:11:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2459/15423 [2:07:20<11:11:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2460/15423 [2:07:23<11:11:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2460/15423 [2:07:23<11:11:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2461/15423 [2:07:24<11:11:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2461/15423 [2:07:24<11:11:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2462/15423 [2:07:28<11:11:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2462/15423 [2:07:28<11:11:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2463/15423 [2:07:30<11:10:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2463/15423 [2:07:30<11:10:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2464/15423 [2:07:53<11:12:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2464/15423 [2:07:53<11:12:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2465/15423 [2:07:55<11:12:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2465/15423 [2:07:55<11:12:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2466/15423 [2:07:59<11:12:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2466/15423 [2:07:59<11:12:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2467/15423 [2:08:00<11:12:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2467/15423 [2:08:00<11:12:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2468/15423 [2:08:04<11:12:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2468/15423 [2:08:04<11:12:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2469/15423 [2:08:07<11:12:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2469/15423 [2:08:07<11:12:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2470/15423 [2:08:09<11:12:06,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2470/15423 [2:08:09<11:12:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2471/15423 [2:08:11<11:11:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2471/15423 [2:08:11<11:11:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2472/15423 [2:08:12<11:11:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2472/15423 [2:08:12<11:11:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2473/15423 [2:08:16<11:11:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2473/15423 [2:08:16<11:11:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2474/15423 [2:08:18<11:11:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2474/15423 [2:08:18<11:11:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2475/15423 [2:08:22<11:11:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2475/15423 [2:08:22<11:11:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2476/15423 [2:08:24<11:11:29,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2476/15423 [2:08:24<11:11:29,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2477/15423 [2:08:26<11:11:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2477/15423 [2:08:26<11:11:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2478/15423 [2:08:27<11:11:06,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2478/15423 [2:08:27<11:11:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2479/15423 [2:08:30<11:11:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2479/15423 [2:08:30<11:11:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2480/15423 [2:08:34<11:10:59,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2480/15423 [2:08:34<11:10:59,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2481/15423 [2:08:35<11:10:48,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2481/15423 [2:08:35<11:10:48,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2482/15423 [2:08:39<11:10:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2482/15423 [2:08:39<11:10:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2483/15423 [2:08:42<11:10:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2483/15423 [2:08:42<11:10:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2484/15423 [2:08:44<11:10:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2484/15423 [2:08:44<11:10:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2485/15423 [2:08:48<11:10:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2485/15423 [2:08:48<11:10:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2486/15423 [2:08:52<11:10:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2486/15423 [2:08:52<11:10:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2487/15423 [2:08:55<11:10:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2487/15423 [2:08:55<11:10:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2488/15423 [2:08:56<11:10:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2488/15423 [2:08:56<11:10:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2489/15423 [2:09:00<11:10:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2489/15423 [2:09:00<11:10:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2490/15423 [2:09:05<11:10:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2490/15423 [2:09:05<11:10:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2491/15423 [2:09:06<11:10:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2491/15423 [2:09:06<11:10:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2492/15423 [2:09:08<11:10:06,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2492/15423 [2:09:08<11:10:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2493/15423 [2:09:10<11:09:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2493/15423 [2:09:10<11:09:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2494/15423 [2:09:14<11:09:59,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2494/15423 [2:09:14<11:09:59,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2495/15423 [2:09:16<11:09:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2495/15423 [2:09:16<11:09:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2496/15423 [2:09:28<11:10:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2496/15423 [2:09:28<11:10:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2497/15423 [2:09:32<11:10:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2497/15423 [2:09:32<11:10:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2498/15423 [2:09:36<11:10:35,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2498/15423 [2:09:36<11:10:35,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2499/15423 [2:09:40<11:10:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2499/15423 [2:09:40<11:10:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2500/15423 [2:09:43<11:10:35,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2500/15423 [2:09:43<11:10:35,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2501/15423 [2:09:46<11:10:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2501/15423 [2:09:46<11:10:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2502/15423 [2:09:48<11:10:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2502/15423 [2:09:48<11:10:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2503/15423 [2:09:52<11:10:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2503/15423 [2:09:52<11:10:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2504/15423 [2:09:54<11:10:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2504/15423 [2:09:54<11:10:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2505/15423 [2:09:58<11:10:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2505/15423 [2:09:58<11:10:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2506/15423 [2:10:01<11:10:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2506/15423 [2:10:01<11:10:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2507/15423 [2:10:06<11:10:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2507/15423 [2:10:06<11:10:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2508/15423 [2:10:09<11:10:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2508/15423 [2:10:09<11:10:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2509/15423 [2:10:12<11:10:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2509/15423 [2:10:12<11:10:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2510/15423 [2:10:13<11:09:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2510/15423 [2:10:13<11:09:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2511/15423 [2:10:16<11:09:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2511/15423 [2:10:16<11:09:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2512/15423 [2:10:19<11:09:48,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2512/15423 [2:10:19<11:09:48,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2513/15423 [2:10:21<11:09:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2513/15423 [2:10:21<11:09:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2514/15423 [2:10:22<11:09:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2514/15423 [2:10:22<11:09:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2515/15423 [2:10:24<11:09:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2515/15423 [2:10:24<11:09:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2516/15423 [2:10:27<11:09:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2516/15423 [2:10:27<11:09:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2517/15423 [2:10:28<11:09:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|��| 2517/15423 [2:10:28<11:09:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2518/15423 [2:10:32<11:09:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2518/15423 [2:10:32<11:09:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2519/15423 [2:10:33<11:08:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2519/15423 [2:10:33<11:08:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2520/15423 [2:10:33<11:08:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2520/15423 [2:10:33<11:08:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2521/15423 [2:10:35<11:08:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2521/15423 [2:10:35<11:08:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2522/15423 [2:10:36<11:08:06,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2522/15423 [2:10:36<11:08:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2523/15423 [2:10:38<11:07:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2523/15423 [2:10:38<11:07:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2524/15423 [2:10:43<11:08:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2524/15423 [2:10:43<11:08:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2525/15423 [2:10:45<11:07:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2525/15423 [2:10:45<11:07:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2526/15423 [2:10:49<11:07:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2526/15423 [2:10:49<11:07:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2527/15423 [2:10:53<11:07:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2527/15423 [2:10:53<11:07:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2528/15423 [2:11:03<11:08:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2528/15423 [2:11:03<11:08:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2529/15423 [2:11:05<11:08:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2529/15423 [2:11:05<11:08:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2530/15423 [2:11:07<11:08:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2530/15423 [2:11:07<11:08:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2531/15423 [2:11:10<11:08:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2531/15423 [2:11:10<11:08:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2532/15423 [2:11:13<11:08:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2532/15423 [2:11:13<11:08:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2533/15423 [2:11:15<11:07:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2533/15423 [2:11:15<11:07:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2534/15423 [2:11:20<11:08:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2534/15423 [2:11:20<11:08:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2535/15423 [2:11:20<11:07:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2535/15423 [2:11:20<11:07:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2536/15423 [2:11:24<11:07:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2536/15423 [2:11:24<11:07:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2537/15423 [2:11:25<11:07:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2537/15423 [2:11:25<11:07:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2538/15423 [2:11:27<11:07:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2538/15423 [2:11:27<11:07:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2539/15423 [2:11:31<11:07:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2539/15423 [2:11:31<11:07:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2540/15423 [2:11:33<11:07:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2540/15423 [2:11:33<11:07:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2541/15423 [2:11:38<11:07:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2541/15423 [2:11:38<11:07:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2542/15423 [2:11:40<11:07:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2542/15423 [2:11:40<11:07:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2543/15423 [2:11:42<11:07:06,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2543/15423 [2:11:42<11:07:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  16%|▏| 2544/15423 [2:11:44<11:06:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  16%|▏| 2544/15423 [2:11:44<11:06:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2545/15423 [2:11:47<11:06:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2545/15423 [2:11:47<11:06:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2546/15423 [2:11:51<11:06:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2546/15423 [2:11:51<11:06:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2547/15423 [2:11:56<11:06:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2547/15423 [2:11:56<11:06:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2548/15423 [2:11:57<11:06:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2548/15423 [2:11:57<11:06:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2549/15423 [2:12:00<11:06:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2549/15423 [2:12:00<11:06:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2550/15423 [2:12:01<11:06:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2550/15423 [2:12:01<11:06:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2551/15423 [2:12:03<11:06:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2551/15423 [2:12:03<11:06:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2552/15423 [2:12:07<11:06:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2552/15423 [2:12:07<11:06:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2553/15423 [2:12:11<11:06:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2553/15423 [2:12:11<11:06:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2554/15423 [2:12:14<11:06:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2554/15423 [2:12:14<11:06:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2555/15423 [2:12:15<11:06:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2555/15423 [2:12:15<11:06:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2556/15423 [2:12:18<11:06:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2556/15423 [2:12:18<11:06:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2557/15423 [2:12:20<11:05:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2557/15423 [2:12:20<11:05:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2558/15423 [2:12:22<11:05:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2558/15423 [2:12:22<11:05:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2559/15423 [2:12:23<11:05:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2559/15423 [2:12:23<11:05:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2560/15423 [2:12:47<11:07:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2560/15423 [2:12:47<11:07:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2561/15423 [2:12:51<11:07:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2561/15423 [2:12:51<11:07:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2562/15423 [2:12:55<11:07:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2562/15423 [2:12:55<11:07:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2563/15423 [2:12:59<11:07:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2563/15423 [2:12:59<11:07:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2564/15423 [2:13:03<11:07:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2564/15423 [2:13:03<11:07:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2565/15423 [2:13:05<11:07:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2565/15423 [2:13:05<11:07:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2566/15423 [2:13:08<11:07:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2566/15423 [2:13:08<11:07:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2567/15423 [2:13:11<11:07:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2567/15423 [2:13:11<11:07:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2568/15423 [2:13:16<11:07:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2568/15423 [2:13:16<11:07:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2569/15423 [2:13:18<11:07:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2569/15423 [2:13:18<11:07:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2570/15423 [2:13:19<11:06:48,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2570/15423 [2:13:19<11:06:48,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2571/15423 [2:13:22<11:06:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2571/15423 [2:13:22<11:06:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2572/15423 [2:13:23<11:06:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2572/15423 [2:13:23<11:06:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2573/15423 [2:13:25<11:06:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2573/15423 [2:13:25<11:06:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2574/15423 [2:13:27<11:06:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2574/15423 [2:13:27<11:06:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2575/15423 [2:13:31<11:06:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2575/15423 [2:13:31<11:06:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2576/15423 [2:13:33<11:06:06,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2576/15423 [2:13:33<11:06:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2577/15423 [2:13:37<11:06:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2577/15423 [2:13:37<11:06:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2578/15423 [2:13:41<11:06:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2578/15423 [2:13:41<11:06:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2579/15423 [2:13:42<11:05:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2579/15423 [2:13:42<11:05:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2580/15423 [2:13:47<11:05:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2580/15423 [2:13:47<11:05:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2581/15423 [2:13:50<11:05:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2581/15423 [2:13:50<11:05:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2582/15423 [2:13:52<11:05:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2582/15423 [2:13:52<11:05:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2583/15423 [2:13:56<11:05:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2583/15423 [2:13:56<11:05:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2584/15423 [2:13:59<11:05:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2584/15423 [2:13:59<11:05:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2585/15423 [2:14:02<11:05:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2585/15423 [2:14:02<11:05:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2586/15423 [2:14:05<11:05:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2586/15423 [2:14:05<11:05:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2587/15423 [2:14:06<11:05:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2587/15423 [2:14:06<11:05:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2588/15423 [2:14:06<11:05:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2588/15423 [2:14:06<11:05:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2589/15423 [2:14:07<11:04:52,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2589/15423 [2:14:07<11:04:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2590/15423 [2:14:11<11:04:52,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2590/15423 [2:14:11<11:04:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2591/15423 [2:14:12<11:04:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2591/15423 [2:14:12<11:04:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2592/15423 [2:14:20<11:05:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2592/15423 [2:14:20<11:05:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2593/15423 [2:14:22<11:04:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2593/15423 [2:14:22<11:04:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2594/15423 [2:14:23<11:04:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2594/15423 [2:14:23<11:04:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2595/15423 [2:14:25<11:04:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2595/15423 [2:14:25<11:04:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2596/15423 [2:14:28<11:04:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2596/15423 [2:14:28<11:04:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2597/15423 [2:14:32<11:04:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2597/15423 [2:14:32<11:04:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2598/15423 [2:14:34<11:04:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2598/15423 [2:14:34<11:04:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2599/15423 [2:14:38<11:04:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2599/15423 [2:14:38<11:04:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2600/15423 [2:14:40<11:04:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2600/15423 [2:14:40<11:04:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2601/15423 [2:14:43<11:04:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2601/15423 [2:14:43<11:04:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2602/15423 [2:14:45<11:04:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2602/15423 [2:14:45<11:04:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2603/15423 [2:14:48<11:03:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2603/15423 [2:14:48<11:03:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2604/15423 [2:14:49<11:03:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2604/15423 [2:14:49<11:03:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2605/15423 [2:14:50<11:03:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2605/15423 [2:14:50<11:03:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2606/15423 [2:14:52<11:03:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2606/15423 [2:14:52<11:03:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2607/15423 [2:14:53<11:03:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2607/15423 [2:14:53<11:03:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2608/15423 [2:14:57<11:03:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2608/15423 [2:14:57<11:03:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2609/15423 [2:14:58<11:02:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2609/15423 [2:14:58<11:02:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2610/15423 [2:14:59<11:02:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2610/15423 [2:14:59<11:02:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2611/15423 [2:15:00<11:02:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2611/15423 [2:15:00<11:02:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2612/15423 [2:15:01<11:02:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2612/15423 [2:15:01<11:02:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2613/15423 [2:15:04<11:02:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2613/15423 [2:15:04<11:02:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2614/15423 [2:15:07<11:02:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2614/15423 [2:15:07<11:02:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2615/15423 [2:15:08<11:01:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2615/15423 [2:15:08<11:01:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2616/15423 [2:15:10<11:01:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2616/15423 [2:15:10<11:01:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2617/15423 [2:15:14<11:01:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2617/15423 [2:15:14<11:01:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2618/15423 [2:15:18<11:01:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2618/15423 [2:15:18<11:01:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2619/15423 [2:15:21<11:01:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2619/15423 [2:15:21<11:01:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2620/15423 [2:15:23<11:01:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2620/15423 [2:15:23<11:01:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2621/15423 [2:15:24<11:01:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2621/15423 [2:15:24<11:01:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2622/15423 [2:15:27<11:01:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2622/15423 [2:15:27<11:01:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2623/15423 [2:15:31<11:01:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2623/15423 [2:15:31<11:01:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2624/15423 [2:16:00<11:03:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2624/15423 [2:16:00<11:03:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2625/15423 [2:16:04<11:03:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2625/15423 [2:16:04<11:03:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2626/15423 [2:16:07<11:03:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2626/15423 [2:16:07<11:03:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2627/15423 [2:16:11<11:03:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2627/15423 [2:16:11<11:03:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2628/15423 [2:16:12<11:03:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2628/15423 [2:16:12<11:03:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2629/15423 [2:16:14<11:03:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2629/15423 [2:16:14<11:03:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2630/15423 [2:16:18<11:03:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2630/15423 [2:16:18<11:03:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2631/15423 [2:16:22<11:03:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2631/15423 [2:16:22<11:03:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2632/15423 [2:16:23<11:02:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2632/15423 [2:16:23<11:02:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2633/15423 [2:16:24<11:02:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2633/15423 [2:16:24<11:02:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2634/15423 [2:16:29<11:02:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2634/15423 [2:16:29<11:02:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2635/15423 [2:16:30<11:02:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2635/15423 [2:16:30<11:02:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2636/15423 [2:16:35<11:02:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2636/15423 [2:16:35<11:02:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2637/15423 [2:16:38<11:02:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2637/15423 [2:16:38<11:02:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2638/15423 [2:16:40<11:02:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2638/15423 [2:16:40<11:02:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2639/15423 [2:16:43<11:02:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2639/15423 [2:16:43<11:02:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2640/15423 [2:16:47<11:02:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2640/15423 [2:16:47<11:02:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2641/15423 [2:16:49<11:02:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2641/15423 [2:16:49<11:02:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2642/15423 [2:16:53<11:02:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2642/15423 [2:16:53<11:02:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2643/15423 [2:16:56<11:02:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2643/15423 [2:16:56<11:02:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2644/15423 [2:16:58<11:02:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2644/15423 [2:16:58<11:02:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2645/15423 [2:17:02<11:02:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2645/15423 [2:17:02<11:02:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2646/15423 [2:17:04<11:01:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2646/15423 [2:17:04<11:01:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2647/15423 [2:17:07<11:01:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2647/15423 [2:17:07<11:01:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2648/15423 [2:17:10<11:01:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2648/15423 [2:17:10<11:01:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2649/15423 [2:17:11<11:01:35,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2649/15423 [2:17:11<11:01:35,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2650/15423 [2:17:14<11:01:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2650/15423 [2:17:14<11:01:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2651/15423 [2:17:16<11:01:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2651/15423 [2:17:16<11:01:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2652/15423 [2:17:19<11:01:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2652/15423 [2:17:19<11:01:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2653/15423 [2:17:20<11:01:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2653/15423 [2:17:20<11:01:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2654/15423 [2:17:24<11:01:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2654/15423 [2:17:24<11:01:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2655/15423 [2:17:28<11:01:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2655/15423 [2:17:28<11:01:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2656/15423 [2:17:35<11:01:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2656/15423 [2:17:35<11:01:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2657/15423 [2:17:37<11:01:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2657/15423 [2:17:37<11:01:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2658/15423 [2:17:39<11:01:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2658/15423 [2:17:39<11:01:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2659/15423 [2:17:40<11:00:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2659/15423 [2:17:40<11:00:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2660/15423 [2:17:43<11:00:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2660/15423 [2:17:43<11:00:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2661/15423 [2:17:45<11:00:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2661/15423 [2:17:45<11:00:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2662/15423 [2:17:47<11:00:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2662/15423 [2:17:47<11:00:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2663/15423 [2:17:50<11:00:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2663/15423 [2:17:50<11:00:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2664/15423 [2:17:52<11:00:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2664/15423 [2:17:52<11:00:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2665/15423 [2:17:54<11:00:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2665/15423 [2:17:54<11:00:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2666/15423 [2:17:57<11:00:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2666/15423 [2:17:57<11:00:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2667/15423 [2:17:59<11:00:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2667/15423 [2:17:59<11:00:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2668/15423 [2:18:01<10:59:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2668/15423 [2:18:01<10:59:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2669/15423 [2:18:03<10:59:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2669/15423 [2:18:03<10:59:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2670/15423 [2:18:06<10:59:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2670/15423 [2:18:06<10:59:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2671/15423 [2:18:08<10:59:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2671/15423 [2:18:08<10:59:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2672/15423 [2:18:11<10:59:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2672/15423 [2:18:11<10:59:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|���| 2673/15423 [2:18:12<10:59:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2673/15423 [2:18:12<10:59:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2674/15423 [2:18:16<10:59:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2674/15423 [2:18:16<10:59:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2675/15423 [2:18:20<10:59:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2675/15423 [2:18:20<10:59:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2676/15423 [2:18:21<10:59:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2676/15423 [2:18:21<10:59:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2677/15423 [2:18:25<10:59:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2677/15423 [2:18:25<10:59:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2678/15423 [2:18:27<10:58:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2678/15423 [2:18:27<10:58:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2679/15423 [2:18:31<10:58:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2679/15423 [2:18:31<10:58:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2680/15423 [2:18:33<10:58:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2680/15423 [2:18:33<10:58:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2681/15423 [2:18:36<10:58:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2681/15423 [2:18:36<10:58:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2682/15423 [2:18:37<10:58:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2682/15423 [2:18:37<10:58:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2683/15423 [2:18:39<10:58:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2683/15423 [2:18:39<10:58:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2684/15423 [2:18:41<10:58:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2684/15423 [2:18:41<10:58:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2685/15423 [2:18:44<10:58:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2685/15423 [2:18:44<10:58:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2686/15423 [2:18:48<10:58:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2686/15423 [2:18:48<10:58:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2687/15423 [2:18:53<10:58:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2687/15423 [2:18:53<10:58:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2688/15423 [2:19:12<10:59:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2688/15423 [2:19:12<10:59:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2689/15423 [2:19:16<10:59:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2689/15423 [2:19:16<10:59:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2690/15423 [2:19:20<10:59:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2690/15423 [2:19:20<10:59:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2691/15423 [2:19:21<10:59:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2691/15423 [2:19:21<10:59:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2692/15423 [2:19:24<10:59:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2692/15423 [2:19:24<10:59:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2693/15423 [2:19:26<10:59:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2693/15423 [2:19:26<10:59:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2694/15423 [2:19:27<10:58:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2694/15423 [2:19:27<10:58:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2695/15423 [2:19:32<10:59:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2695/15423 [2:19:32<10:59:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2696/15423 [2:19:36<10:59:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2696/15423 [2:19:36<10:59:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2697/15423 [2:19:38<10:58:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2697/15423 [2:19:38<10:58:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2698/15423 [2:19:41<10:58:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2698/15423 [2:19:41<10:58:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  17%|▏| 2699/15423 [2:19:43<10:58:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  17%|▏| 2699/15423 [2:19:43<10:58:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2700/15423 [2:19:44<10:58:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2700/15423 [2:19:44<10:58:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2701/15423 [2:19:46<10:58:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2701/15423 [2:19:46<10:58:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2702/15423 [2:19:47<10:58:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2702/15423 [2:19:47<10:58:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2703/15423 [2:19:49<10:57:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2703/15423 [2:19:49<10:57:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2704/15423 [2:19:50<10:57:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2704/15423 [2:19:50<10:57:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2705/15423 [2:19:54<10:57:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2705/15423 [2:19:54<10:57:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2706/15423 [2:19:57<10:57:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2706/15423 [2:19:57<10:57:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2707/15423 [2:19:59<10:57:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2707/15423 [2:19:59<10:57:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2708/15423 [2:20:00<10:57:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2708/15423 [2:20:00<10:57:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2709/15423 [2:20:02<10:57:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2709/15423 [2:20:02<10:57:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2710/15423 [2:20:06<10:57:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2710/15423 [2:20:06<10:57:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2711/15423 [2:20:07<10:57:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2711/15423 [2:20:07<10:57:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2712/15423 [2:20:10<10:57:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2712/15423 [2:20:10<10:57:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2713/15423 [2:20:11<10:56:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2713/15423 [2:20:11<10:56:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2714/15423 [2:20:16<10:56:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2714/15423 [2:20:16<10:56:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2715/15423 [2:20:18<10:56:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2715/15423 [2:20:18<10:56:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2716/15423 [2:20:19<10:56:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2716/15423 [2:20:19<10:56:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2717/15423 [2:20:23<10:56:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2717/15423 [2:20:23<10:56:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2718/15423 [2:20:25<10:56:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2718/15423 [2:20:25<10:56:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2719/15423 [2:20:30<10:56:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2719/15423 [2:20:30<10:56:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2720/15423 [2:20:46<10:57:26,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2720/15423 [2:20:46<10:57:26,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2721/15423 [2:20:48<10:57:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2721/15423 [2:20:48<10:57:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2722/15423 [2:20:52<10:57:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2722/15423 [2:20:52<10:57:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2723/15423 [2:20:54<10:57:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2723/15423 [2:20:54<10:57:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2724/15423 [2:20:58<10:57:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2724/15423 [2:20:58<10:57:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2725/15423 [2:21:02<10:57:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2725/15423 [2:21:02<10:57:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2726/15423 [2:21:06<10:57:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2726/15423 [2:21:06<10:57:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2727/15423 [2:21:10<10:57:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2727/15423 [2:21:10<10:57:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2728/15423 [2:21:11<10:57:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2728/15423 [2:21:11<10:57:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2729/15423 [2:21:13<10:56:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2729/15423 [2:21:13<10:56:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2730/15423 [2:21:15<10:56:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2730/15423 [2:21:15<10:56:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2731/15423 [2:21:19<10:56:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2731/15423 [2:21:19<10:56:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2732/15423 [2:21:19<10:56:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2732/15423 [2:21:19<10:56:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2733/15423 [2:21:21<10:56:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2733/15423 [2:21:21<10:56:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2734/15423 [2:21:22<10:56:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2734/15423 [2:21:22<10:56:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2735/15423 [2:21:24<10:56:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2735/15423 [2:21:24<10:56:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2736/15423 [2:21:27<10:55:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2736/15423 [2:21:27<10:55:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2737/15423 [2:21:30<10:55:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2737/15423 [2:21:30<10:55:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2738/15423 [2:21:34<10:55:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2738/15423 [2:21:34<10:55:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2739/15423 [2:21:39<10:55:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2739/15423 [2:21:39<10:55:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2740/15423 [2:21:43<10:55:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2740/15423 [2:21:43<10:55:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2741/15423 [2:21:47<10:56:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2741/15423 [2:21:47<10:56:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2742/15423 [2:21:51<10:56:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2742/15423 [2:21:51<10:56:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2743/15423 [2:21:53<10:55:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2743/15423 [2:21:53<10:55:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2744/15423 [2:21:57<10:55:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2744/15423 [2:21:57<10:55:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2745/15423 [2:21:59<10:55:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2745/15423 [2:21:59<10:55:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2746/15423 [2:22:03<10:55:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2746/15423 [2:22:03<10:55:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2747/15423 [2:22:07<10:55:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2747/15423 [2:22:07<10:55:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2748/15423 [2:22:11<10:55:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2748/15423 [2:22:11<10:55:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2749/15423 [2:22:14<10:55:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2749/15423 [2:22:14<10:55:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2750/15423 [2:22:18<10:55:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2750/15423 [2:22:18<10:55:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2751/15423 [2:22:21<10:55:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2751/15423 [2:22:21<10:55:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2752/15423 [2:22:30<10:56:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2752/15423 [2:22:30<10:56:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2753/15423 [2:22:31<10:55:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2753/15423 [2:22:31<10:55:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2754/15423 [2:22:36<10:56:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2754/15423 [2:22:36<10:56:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2755/15423 [2:22:36<10:55:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2755/15423 [2:22:36<10:55:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2756/15423 [2:22:40<10:55:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2756/15423 [2:22:40<10:55:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2757/15423 [2:22:45<10:55:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2757/15423 [2:22:45<10:55:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2758/15423 [2:22:49<10:55:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2758/15423 [2:22:49<10:55:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2759/15423 [2:22:50<10:55:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2759/15423 [2:22:50<10:55:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2760/15423 [2:22:53<10:55:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2760/15423 [2:22:53<10:55:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2761/15423 [2:22:57<10:55:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2761/15423 [2:22:57<10:55:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2762/15423 [2:22:58<10:55:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2762/15423 [2:22:58<10:55:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2763/15423 [2:23:00<10:55:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2763/15423 [2:23:00<10:55:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2764/15423 [2:23:02<10:55:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2764/15423 [2:23:02<10:55:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2765/15423 [2:23:04<10:55:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2765/15423 [2:23:04<10:55:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2766/15423 [2:23:07<10:54:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2766/15423 [2:23:07<10:54:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2767/15423 [2:23:11<10:54:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2767/15423 [2:23:11<10:54:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2768/15423 [2:23:13<10:54:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2768/15423 [2:23:13<10:54:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2769/15423 [2:23:16<10:54:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2769/15423 [2:23:16<10:54:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2770/15423 [2:23:20<10:54:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2770/15423 [2:23:20<10:54:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2771/15423 [2:23:21<10:54:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2771/15423 [2:23:21<10:54:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2772/15423 [2:23:23<10:54:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2772/15423 [2:23:23<10:54:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2773/15423 [2:23:26<10:54:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2773/15423 [2:23:26<10:54:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2774/15423 [2:23:27<10:54:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2774/15423 [2:23:27<10:54:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2775/15423 [2:23:30<10:54:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2775/15423 [2:23:30<10:54:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2776/15423 [2:23:35<10:54:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2776/15423 [2:23:35<10:54:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2777/15423 [2:23:37<10:54:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2777/15423 [2:23:37<10:54:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2778/15423 [2:23:40<10:54:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2778/15423 [2:23:40<10:54:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2779/15423 [2:23:43<10:53:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2779/15423 [2:23:43<10:53:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2780/15423 [2:23:45<10:53:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2780/15423 [2:23:45<10:53:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2781/15423 [2:23:47<10:53:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2781/15423 [2:23:47<10:53:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2782/15423 [2:23:50<10:53:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2782/15423 [2:23:50<10:53:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2783/15423 [2:23:54<10:53:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2783/15423 [2:23:54<10:53:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2784/15423 [2:24:06<10:54:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2784/15423 [2:24:06<10:54:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2785/15423 [2:24:07<10:54:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2785/15423 [2:24:07<10:54:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2786/15423 [2:24:11<10:54:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2786/15423 [2:24:11<10:54:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2787/15423 [2:24:15<10:54:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2787/15423 [2:24:15<10:54:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2788/15423 [2:24:19<10:54:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2788/15423 [2:24:19<10:54:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2789/15423 [2:24:24<10:54:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2789/15423 [2:24:24<10:54:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2790/15423 [2:24:25<10:53:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2790/15423 [2:24:25<10:53:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2791/15423 [2:24:27<10:53:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2791/15423 [2:24:27<10:53:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2792/15423 [2:24:28<10:53:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2792/15423 [2:24:28<10:53:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2793/15423 [2:24:30<10:53:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2793/15423 [2:24:30<10:53:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2794/15423 [2:24:32<10:53:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2794/15423 [2:24:32<10:53:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2795/15423 [2:24:36<10:53:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2795/15423 [2:24:36<10:53:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2796/15423 [2:24:39<10:53:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2796/15423 [2:24:39<10:53:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2797/15423 [2:24:42<10:53:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2797/15423 [2:24:42<10:53:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2798/15423 [2:24:46<10:53:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2798/15423 [2:24:46<10:53:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2799/15423 [2:24:50<10:53:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2799/15423 [2:24:50<10:53:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2800/15423 [2:24:52<10:53:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2800/15423 [2:24:52<10:53:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2801/15423 [2:24:54<10:52:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2801/15423 [2:24:54<10:52:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2802/15423 [2:24:55<10:52:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2802/15423 [2:24:55<10:52:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2803/15423 [2:25:00<10:52:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2803/15423 [2:25:00<10:52:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2804/15423 [2:25:02<10:52:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2804/15423 [2:25:02<10:52:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2805/15423 [2:25:05<10:52:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2805/15423 [2:25:05<10:52:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2806/15423 [2:25:08<10:52:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2806/15423 [2:25:08<10:52:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2807/15423 [2:25:10<10:52:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2807/15423 [2:25:10<10:52:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2808/15423 [2:25:12<10:52:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2808/15423 [2:25:12<10:52:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2809/15423 [2:25:15<10:52:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2809/15423 [2:25:15<10:52:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2810/15423 [2:25:16<10:52:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2810/15423 [2:25:16<10:52:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2811/15423 [2:25:20<10:52:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2811/15423 [2:25:20<10:52:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2812/15423 [2:25:22<10:51:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2812/15423 [2:25:22<10:51:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2813/15423 [2:25:25<10:51:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2813/15423 [2:25:25<10:51:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2814/15423 [2:25:26<10:51:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2814/15423 [2:25:26<10:51:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2815/15423 [2:25:29<10:51:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2815/15423 [2:25:29<10:51:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2816/15423 [2:25:42<10:52:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2816/15423 [2:25:42<10:52:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2817/15423 [2:25:46<10:52:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2817/15423 [2:25:46<10:52:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2818/15423 [2:25:50<10:52:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2818/15423 [2:25:50<10:52:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2819/15423 [2:25:54<10:52:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2819/15423 [2:25:54<10:52:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2820/15423 [2:25:56<10:52:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2820/15423 [2:25:56<10:52:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2821/15423 [2:25:57<10:52:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2821/15423 [2:25:57<10:52:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2822/15423 [2:25:59<10:51:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2822/15423 [2:25:59<10:51:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2823/15423 [2:26:00<10:51:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2823/15423 [2:26:00<10:51:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2824/15423 [2:26:02<10:51:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2824/15423 [2:26:02<10:51:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2825/15423 [2:26:03<10:51:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2825/15423 [2:26:03<10:51:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2826/15423 [2:26:08<10:51:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2826/15423 [2:26:08<10:51:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2827/15423 [2:26:11<10:51:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2827/15423 [2:26:11<10:51:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2828/15423 [2:26:15<10:51:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2828/15423 [2:26:15<10:51:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2829/15423 [2:26:20<10:51:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2829/15423 [2:26:20<10:51:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2830/15423 [2:26:23<10:51:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2830/15423 [2:26:23<10:51:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2831/15423 [2:26:27<10:51:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2831/15423 [2:26:27<10:51:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2832/15423 [2:26:28<10:51:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2832/15423 [2:26:28<10:51:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2833/15423 [2:26:29<10:50:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2833/15423 [2:26:29<10:50:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2834/15423 [2:26:30<10:50:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2834/15423 [2:26:30<10:50:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2835/15423 [2:26:34<10:50:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2835/15423 [2:26:34<10:50:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2836/15423 [2:26:38<10:50:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2836/15423 [2:26:38<10:50:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2837/15423 [2:26:40<10:50:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2837/15423 [2:26:40<10:50:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2838/15423 [2:26:44<10:50:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2838/15423 [2:26:44<10:50:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2839/15423 [2:26:46<10:50:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2839/15423 [2:26:46<10:50:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2840/15423 [2:26:51<10:50:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2840/15423 [2:26:51<10:50:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2841/15423 [2:26:52<10:50:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2841/15423 [2:26:52<10:50:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2842/15423 [2:26:56<10:50:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2842/15423 [2:26:56<10:50:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2843/15423 [2:26:59<10:50:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2843/15423 [2:26:59<10:50:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2844/15423 [2:27:03<10:50:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2844/15423 [2:27:03<10:50:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2845/15423 [2:27:08<10:50:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2845/15423 [2:27:08<10:50:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2846/15423 [2:27:09<10:50:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2846/15423 [2:27:09<10:50:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2847/15423 [2:27:12<10:50:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2847/15423 [2:27:12<10:50:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2848/15423 [2:27:23<10:50:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2848/15423 [2:27:23<10:50:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2849/15423 [2:27:25<10:50:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2849/15423 [2:27:25<10:50:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2850/15423 [2:27:29<10:50:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2850/15423 [2:27:29<10:50:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2851/15423 [2:27:30<10:50:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2851/15423 [2:27:30<10:50:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2852/15423 [2:27:33<10:50:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2852/15423 [2:27:33<10:50:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  18%|▏| 2853/15423 [2:27:35<10:50:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  18%|▏| 2853/15423 [2:27:35<10:50:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2854/15423 [2:27:38<10:50:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2854/15423 [2:27:38<10:50:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2855/15423 [2:27:43<10:50:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2855/15423 [2:27:43<10:50:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2856/15423 [2:27:43<10:50:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2856/15423 [2:27:43<10:50:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2857/15423 [2:27:46<10:49:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2857/15423 [2:27:46<10:49:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2858/15423 [2:27:47<10:49:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2858/15423 [2:27:47<10:49:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2859/15423 [2:27:49<10:49:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2859/15423 [2:27:49<10:49:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2860/15423 [2:27:54<10:49:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2860/15423 [2:27:54<10:49:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2861/15423 [2:27:57<10:49:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2861/15423 [2:27:57<10:49:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2862/15423 [2:28:00<10:49:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2862/15423 [2:28:00<10:49:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2863/15423 [2:28:04<10:49:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2863/15423 [2:28:04<10:49:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2864/15423 [2:28:05<10:49:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2864/15423 [2:28:05<10:49:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2865/15423 [2:28:07<10:49:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2865/15423 [2:28:07<10:49:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2866/15423 [2:28:08<10:49:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2866/15423 [2:28:08<10:49:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2867/15423 [2:28:12<10:49:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2867/15423 [2:28:12<10:49:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2868/15423 [2:28:15<10:49:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2868/15423 [2:28:15<10:49:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2869/15423 [2:28:17<10:48:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2869/15423 [2:28:17<10:48:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2870/15423 [2:28:20<10:48:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2870/15423 [2:28:20<10:48:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2871/15423 [2:28:24<10:48:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2871/15423 [2:28:24<10:48:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2872/15423 [2:28:27<10:48:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2872/15423 [2:28:27<10:48:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2873/15423 [2:28:30<10:48:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2873/15423 [2:28:30<10:48:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2874/15423 [2:28:32<10:48:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2874/15423 [2:28:32<10:48:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2875/15423 [2:28:36<10:48:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2875/15423 [2:28:36<10:48:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2876/15423 [2:28:40<10:48:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2876/15423 [2:28:40<10:48:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2877/15423 [2:28:42<10:48:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2877/15423 [2:28:42<10:48:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2878/15423 [2:28:45<10:48:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2878/15423 [2:28:45<10:48:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2879/15423 [2:28:46<10:48:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2879/15423 [2:28:46<10:48:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2880/15423 [2:29:02<10:49:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2880/15423 [2:29:02<10:49:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2881/15423 [2:29:06<10:49:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2881/15423 [2:29:06<10:49:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2882/15423 [2:29:10<10:49:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2882/15423 [2:29:10<10:49:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2883/15423 [2:29:15<10:49:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2883/15423 [2:29:15<10:49:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2884/15423 [2:29:19<10:49:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2884/15423 [2:29:19<10:49:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2885/15423 [2:29:21<10:49:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2885/15423 [2:29:21<10:49:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2886/15423 [2:29:23<10:48:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2886/15423 [2:29:23<10:48:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2887/15423 [2:29:26<10:48:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2887/15423 [2:29:26<10:48:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2888/15423 [2:29:29<10:48:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2888/15423 [2:29:29<10:48:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2889/15423 [2:29:31<10:48:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2889/15423 [2:29:31<10:48:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2890/15423 [2:29:32<10:48:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2890/15423 [2:29:32<10:48:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2891/15423 [2:29:37<10:48:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2891/15423 [2:29:37<10:48:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2892/15423 [2:29:41<10:48:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2892/15423 [2:29:41<10:48:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2893/15423 [2:29:44<10:48:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2893/15423 [2:29:44<10:48:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2894/15423 [2:29:45<10:48:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2894/15423 [2:29:45<10:48:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2895/15423 [2:29:47<10:48:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2895/15423 [2:29:47<10:48:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2896/15423 [2:29:50<10:48:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2896/15423 [2:29:50<10:48:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2897/15423 [2:29:54<10:48:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2897/15423 [2:29:54<10:48:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2898/15423 [2:29:57<10:48:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2898/15423 [2:29:57<10:48:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2899/15423 [2:29:58<10:47:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2899/15423 [2:29:58<10:47:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2900/15423 [2:30:01<10:47:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2900/15423 [2:30:01<10:47:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2901/15423 [2:30:05<10:47:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2901/15423 [2:30:05<10:47:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2902/15423 [2:30:08<10:47:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2902/15423 [2:30:08<10:47:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2903/15423 [2:30:11<10:47:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2903/15423 [2:30:11<10:47:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2904/15423 [2:30:12<10:47:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2904/15423 [2:30:12<10:47:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2905/15423 [2:30:16<10:47:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2905/15423 [2:30:16<10:47:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2906/15423 [2:30:17<10:47:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2906/15423 [2:30:17<10:47:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2907/15423 [2:30:19<10:47:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2907/15423 [2:30:19<10:47:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2908/15423 [2:30:22<10:47:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2908/15423 [2:30:22<10:47:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2909/15423 [2:30:23<10:46:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2909/15423 [2:30:23<10:46:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2910/15423 [2:30:27<10:46:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2910/15423 [2:30:27<10:46:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2911/15423 [2:30:29<10:46:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2911/15423 [2:30:29<10:46:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2912/15423 [2:30:40<10:47:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2912/15423 [2:30:40<10:47:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2913/15423 [2:30:41<10:47:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2913/15423 [2:30:41<10:47:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2914/15423 [2:30:43<10:47:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2914/15423 [2:30:43<10:47:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2915/15423 [2:30:45<10:46:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2915/15423 [2:30:45<10:46:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2916/15423 [2:30:48<10:46:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2916/15423 [2:30:48<10:46:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2917/15423 [2:30:49<10:46:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2917/15423 [2:30:49<10:46:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2918/15423 [2:30:53<10:46:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2918/15423 [2:30:53<10:46:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2919/15423 [2:30:57<10:46:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2919/15423 [2:30:57<10:46:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2920/15423 [2:30:59<10:46:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2920/15423 [2:30:59<10:46:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2921/15423 [2:31:02<10:46:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2921/15423 [2:31:02<10:46:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2922/15423 [2:31:03<10:46:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2922/15423 [2:31:03<10:46:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2923/15423 [2:31:08<10:46:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2923/15423 [2:31:08<10:46:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2924/15423 [2:31:11<10:46:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2924/15423 [2:31:11<10:46:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2925/15423 [2:31:12<10:46:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2925/15423 [2:31:12<10:46:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2926/15423 [2:31:15<10:46:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2926/15423 [2:31:15<10:46:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2927/15423 [2:31:19<10:46:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2927/15423 [2:31:19<10:46:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2928/15423 [2:31:21<10:45:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2928/15423 [2:31:21<10:45:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2929/15423 [2:31:25<10:45:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2929/15423 [2:31:25<10:45:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2930/15423 [2:31:27<10:45:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2930/15423 [2:31:27<10:45:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2931/15423 [2:31:31<10:45:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2931/15423 [2:31:31<10:45:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2932/15423 [2:31:34<10:45:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2932/15423 [2:31:34<10:45:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2933/15423 [2:31:35<10:45:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2933/15423 [2:31:35<10:45:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2934/15423 [2:31:38<10:45:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2934/15423 [2:31:38<10:45:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2935/15423 [2:31:40<10:45:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2935/15423 [2:31:40<10:45:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2936/15423 [2:31:43<10:45:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2936/15423 [2:31:43<10:45:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2937/15423 [2:31:45<10:45:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2937/15423 [2:31:45<10:45:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2938/15423 [2:31:48<10:45:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2938/15423 [2:31:48<10:45:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2939/15423 [2:31:50<10:44:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2939/15423 [2:31:50<10:44:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2940/15423 [2:31:52<10:44:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2940/15423 [2:31:52<10:44:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2941/15423 [2:31:54<10:44:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2941/15423 [2:31:54<10:44:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2942/15423 [2:31:56<10:44:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2942/15423 [2:31:56<10:44:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2943/15423 [2:31:59<10:44:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2943/15423 [2:31:59<10:44:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2944/15423 [2:32:15<10:45:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2944/15423 [2:32:15<10:45:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2945/15423 [2:32:20<10:45:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2945/15423 [2:32:20<10:45:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2946/15423 [2:32:21<10:45:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2946/15423 [2:32:21<10:45:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2947/15423 [2:32:23<10:45:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2947/15423 [2:32:23<10:45:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2948/15423 [2:32:24<10:44:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2948/15423 [2:32:24<10:44:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2949/15423 [2:32:25<10:44:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2949/15423 [2:32:25<10:44:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2950/15423 [2:32:29<10:44:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2950/15423 [2:32:29<10:44:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2951/15423 [2:32:31<10:44:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2951/15423 [2:32:31<10:44:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2952/15423 [2:32:32<10:44:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2952/15423 [2:32:32<10:44:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2953/15423 [2:32:34<10:44:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2953/15423 [2:32:34<10:44:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2954/15423 [2:32:37<10:44:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2954/15423 [2:32:37<10:44:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2955/15423 [2:32:39<10:44:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2955/15423 [2:32:39<10:44:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2956/15423 [2:32:40<10:43:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2956/15423 [2:32:40<10:43:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2957/15423 [2:32:43<10:43:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2957/15423 [2:32:43<10:43:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2958/15423 [2:32:47<10:43:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2958/15423 [2:32:47<10:43:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2959/15423 [2:32:48<10:43:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2959/15423 [2:32:48<10:43:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2960/15423 [2:32:50<10:43:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2960/15423 [2:32:50<10:43:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2961/15423 [2:32:51<10:43:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2961/15423 [2:32:51<10:43:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2962/15423 [2:32:53<10:43:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2962/15423 [2:32:53<10:43:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2963/15423 [2:32:56<10:43:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2963/15423 [2:32:56<10:43:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2964/15423 [2:32:59<10:43:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2964/15423 [2:32:59<10:43:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2965/15423 [2:33:03<10:43:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2965/15423 [2:33:03<10:43:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2966/15423 [2:33:05<10:42:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2966/15423 [2:33:05<10:42:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2967/15423 [2:33:05<10:42:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2967/15423 [2:33:05<10:42:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2968/15423 [2:33:08<10:42:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2968/15423 [2:33:08<10:42:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2969/15423 [2:33:12<10:42:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2969/15423 [2:33:12<10:42:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2970/15423 [2:33:13<10:42:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2970/15423 [2:33:13<10:42:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2971/15423 [2:33:14<10:42:13,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2971/15423 [2:33:14<10:42:13,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2972/15423 [2:33:15<10:42:02,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2972/15423 [2:33:15<10:42:02,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2973/15423 [2:33:19<10:42:03,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2973/15423 [2:33:19<10:42:03,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2974/15423 [2:33:21<10:41:56,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2974/15423 [2:33:21<10:41:56,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2975/15423 [2:33:24<10:41:52,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2975/15423 [2:33:24<10:41:52,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2976/15423 [2:33:55<10:43:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2976/15423 [2:33:55<10:43:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2977/15423 [2:33:56<10:43:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2977/15423 [2:33:56<10:43:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2978/15423 [2:34:00<10:43:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2978/15423 [2:34:00<10:43:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2979/15423 [2:34:02<10:43:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2979/15423 [2:34:02<10:43:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2980/15423 [2:34:04<10:43:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2980/15423 [2:34:04<10:43:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2981/15423 [2:34:07<10:43:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2981/15423 [2:34:07<10:43:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2982/15423 [2:34:11<10:43:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2982/15423 [2:34:11<10:43:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2983/15423 [2:34:15<10:43:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2983/15423 [2:34:15<10:43:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2984/15423 [2:34:19<10:43:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2984/15423 [2:34:19<10:43:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2985/15423 [2:34:23<10:43:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2985/15423 [2:34:23<10:43:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2986/15423 [2:34:25<10:43:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2986/15423 [2:34:25<10:43:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2987/15423 [2:34:27<10:43:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2987/15423 [2:34:27<10:43:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2988/15423 [2:34:29<10:42:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2988/15423 [2:34:29<10:42:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2989/15423 [2:34:32<10:42:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2989/15423 [2:34:32<10:42:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2990/15423 [2:34:36<10:42:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2990/15423 [2:34:36<10:42:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2991/15423 [2:34:39<10:42:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2991/15423 [2:34:39<10:42:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2992/15423 [2:34:41<10:42:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2992/15423 [2:34:41<10:42:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2993/15423 [2:34:45<10:42:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2993/15423 [2:34:45<10:42:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2994/15423 [2:34:45<10:42:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2994/15423 [2:34:45<10:42:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2995/15423 [2:34:48<10:42:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2995/15423 [2:34:48<10:42:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2996/15423 [2:34:50<10:42:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2996/15423 [2:34:50<10:42:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2997/15423 [2:34:52<10:42:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2997/15423 [2:34:52<10:42:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2998/15423 [2:34:57<10:42:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2998/15423 [2:34:57<10:42:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 2999/15423 [2:34:59<10:42:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 2999/15423 [2:34:59<10:42:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 3000/15423 [2:35:00<10:41:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 3000/15423 [2:35:00<10:41:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 3001/15423 [2:35:02<10:41:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 3001/15423 [2:35:02<10:41:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 3002/15423 [2:35:05<10:41:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 3002/15423 [2:35:05<10:41:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 3003/15423 [2:35:08<10:41:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 3003/15423 [2:35:08<10:41:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 3004/15423 [2:35:10<10:41:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 3004/15423 [2:35:10<10:41:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 3005/15423 [2:35:13<10:41:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 3005/15423 [2:35:13<10:41:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 3006/15423 [2:35:14<10:41:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 3006/15423 [2:35:14<10:41:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  19%|▏| 3007/15423 [2:35:17<10:41:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  19%|▏| 3007/15423 [2:35:17<10:41:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3008/15423 [2:35:32<10:41:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3008/15423 [2:35:32<10:41:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3009/15423 [2:35:34<10:41:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3009/15423 [2:35:34<10:41:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3010/15423 [2:35:37<10:41:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3010/15423 [2:35:37<10:41:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3011/15423 [2:35:41<10:41:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3011/15423 [2:35:41<10:41:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3012/15423 [2:35:43<10:41:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3012/15423 [2:35:43<10:41:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3013/15423 [2:35:44<10:41:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3013/15423 [2:35:44<10:41:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3014/15423 [2:35:49<10:41:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3014/15423 [2:35:49<10:41:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3015/15423 [2:35:51<10:41:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3015/15423 [2:35:51<10:41:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3016/15423 [2:35:55<10:41:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3016/15423 [2:35:55<10:41:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3017/15423 [2:35:56<10:41:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3017/15423 [2:35:56<10:41:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3018/15423 [2:35:59<10:41:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3018/15423 [2:35:59<10:41:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3019/15423 [2:36:02<10:41:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3019/15423 [2:36:02<10:41:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3020/15423 [2:36:06<10:41:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3020/15423 [2:36:06<10:41:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3021/15423 [2:36:09<10:41:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3021/15423 [2:36:09<10:41:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3022/15423 [2:36:10<10:40:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3022/15423 [2:36:10<10:40:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3023/15423 [2:36:15<10:40:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3023/15423 [2:36:15<10:40:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3024/15423 [2:36:15<10:40:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3024/15423 [2:36:15<10:40:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3025/15423 [2:36:19<10:40:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3025/15423 [2:36:19<10:40:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3026/15423 [2:36:22<10:40:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3026/15423 [2:36:22<10:40:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3027/15423 [2:36:24<10:40:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3027/15423 [2:36:24<10:40:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3028/15423 [2:36:25<10:40:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3028/15423 [2:36:25<10:40:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3029/15423 [2:36:29<10:40:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3029/15423 [2:36:29<10:40:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3030/15423 [2:36:30<10:40:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3030/15423 [2:36:30<10:40:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3031/15423 [2:36:34<10:40:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3031/15423 [2:36:34<10:40:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3032/15423 [2:36:35<10:39:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3032/15423 [2:36:35<10:39:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3033/15423 [2:36:37<10:39:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3033/15423 [2:36:37<10:39:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3034/15423 [2:36:40<10:39:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3034/15423 [2:36:40<10:39:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3035/15423 [2:36:42<10:39:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3035/15423 [2:36:42<10:39:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3036/15423 [2:36:46<10:39:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3036/15423 [2:36:46<10:39:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3037/15423 [2:36:51<10:39:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3037/15423 [2:36:51<10:39:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3038/15423 [2:36:53<10:39:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3038/15423 [2:36:53<10:39:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3039/15423 [2:36:58<10:39:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3039/15423 [2:36:58<10:39:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3040/15423 [2:37:07<10:40:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3040/15423 [2:37:07<10:40:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3041/15423 [2:37:09<10:39:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3041/15423 [2:37:09<10:39:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3042/15423 [2:37:10<10:39:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3042/15423 [2:37:10<10:39:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3043/15423 [2:37:14<10:39:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3043/15423 [2:37:14<10:39:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3044/15423 [2:37:17<10:39:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3044/15423 [2:37:17<10:39:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3045/15423 [2:37:19<10:39:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3045/15423 [2:37:19<10:39:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3046/15423 [2:37:20<10:39:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3046/15423 [2:37:20<10:39:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3047/15423 [2:37:21<10:39:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3047/15423 [2:37:21<10:39:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3048/15423 [2:37:24<10:39:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3048/15423 [2:37:24<10:39:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3049/15423 [2:37:25<10:38:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3049/15423 [2:37:25<10:38:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3050/15423 [2:37:27<10:38:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3050/15423 [2:37:27<10:38:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3051/15423 [2:37:31<10:38:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3051/15423 [2:37:31<10:38:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3052/15423 [2:37:35<10:38:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3052/15423 [2:37:35<10:38:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3053/15423 [2:37:38<10:38:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3053/15423 [2:37:38<10:38:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3054/15423 [2:37:42<10:38:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3054/15423 [2:37:42<10:38:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3055/15423 [2:37:44<10:38:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3055/15423 [2:37:44<10:38:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3056/15423 [2:37:47<10:38:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3056/15423 [2:37:47<10:38:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3057/15423 [2:37:51<10:38:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3057/15423 [2:37:51<10:38:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3058/15423 [2:37:55<10:38:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3058/15423 [2:37:55<10:38:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3059/15423 [2:37:57<10:38:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3059/15423 [2:37:57<10:38:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3060/15423 [2:38:00<10:38:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3060/15423 [2:38:00<10:38:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3061/15423 [2:38:03<10:38:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3061/15423 [2:38:03<10:38:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3062/15423 [2:38:07<10:38:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3062/15423 [2:38:07<10:38:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3063/15423 [2:38:11<10:38:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3063/15423 [2:38:11<10:38:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3064/15423 [2:38:16<10:38:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3064/15423 [2:38:16<10:38:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3065/15423 [2:38:19<10:38:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3065/15423 [2:38:19<10:38:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3066/15423 [2:38:20<10:38:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3066/15423 [2:38:20<10:38:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3067/15423 [2:38:22<10:38:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3067/15423 [2:38:22<10:38:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3068/15423 [2:38:25<10:37:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3068/15423 [2:38:25<10:37:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3069/15423 [2:38:27<10:37:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3069/15423 [2:38:27<10:37:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3070/15423 [2:38:29<10:37:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3070/15423 [2:38:29<10:37:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3071/15423 [2:38:30<10:37:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3071/15423 [2:38:30<10:37:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3072/15423 [2:38:48<10:38:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3072/15423 [2:38:48<10:38:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3073/15423 [2:38:48<10:38:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3073/15423 [2:38:48<10:38:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3074/15423 [2:38:50<10:38:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3074/15423 [2:38:50<10:38:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3075/15423 [2:38:52<10:37:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3075/15423 [2:38:52<10:37:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3076/15423 [2:38:55<10:37:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3076/15423 [2:38:55<10:37:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3077/15423 [2:38:58<10:37:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3077/15423 [2:38:58<10:37:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3078/15423 [2:38:59<10:37:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3078/15423 [2:38:59<10:37:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3079/15423 [2:39:01<10:37:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3079/15423 [2:39:01<10:37:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3080/15423 [2:39:05<10:37:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3080/15423 [2:39:05<10:37:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3081/15423 [2:39:09<10:37:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3081/15423 [2:39:09<10:37:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3082/15423 [2:39:12<10:37:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3082/15423 [2:39:12<10:37:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3083/15423 [2:39:14<10:37:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3083/15423 [2:39:14<10:37:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3084/15423 [2:39:17<10:37:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3084/15423 [2:39:17<10:37:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3085/15423 [2:39:20<10:37:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3085/15423 [2:39:20<10:37:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3086/15423 [2:39:22<10:37:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3086/15423 [2:39:22<10:37:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3087/15423 [2:39:26<10:37:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3087/15423 [2:39:26<10:37:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3088/15423 [2:39:28<10:37:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3088/15423 [2:39:28<10:37:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3089/15423 [2:39:32<10:37:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3089/15423 [2:39:32<10:37:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3090/15423 [2:39:33<10:36:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3090/15423 [2:39:33<10:36:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3091/15423 [2:39:37<10:36:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3091/15423 [2:39:37<10:36:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3092/15423 [2:39:39<10:36:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3092/15423 [2:39:39<10:36:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3093/15423 [2:39:43<10:36:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3093/15423 [2:39:43<10:36:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3094/15423 [2:39:45<10:36:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3094/15423 [2:39:45<10:36:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3095/15423 [2:39:49<10:36:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3095/15423 [2:39:49<10:36:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3096/15423 [2:39:51<10:36:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3096/15423 [2:39:51<10:36:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3097/15423 [2:39:54<10:36:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3097/15423 [2:39:54<10:36:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3098/15423 [2:39:55<10:36:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3098/15423 [2:39:55<10:36:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3099/15423 [2:39:57<10:36:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3099/15423 [2:39:57<10:36:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3100/15423 [2:40:01<10:36:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3100/15423 [2:40:01<10:36:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3101/15423 [2:40:03<10:36:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3101/15423 [2:40:03<10:36:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3102/15423 [2:40:06<10:35:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3102/15423 [2:40:06<10:35:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3103/15423 [2:40:10<10:35:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3103/15423 [2:40:10<10:35:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3104/15423 [2:40:25<10:36:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3104/15423 [2:40:25<10:36:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3105/15423 [2:40:28<10:36:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3105/15423 [2:40:28<10:36:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3106/15423 [2:40:33<10:36:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3106/15423 [2:40:33<10:36:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3107/15423 [2:40:36<10:36:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3107/15423 [2:40:36<10:36:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3108/15423 [2:40:38<10:36:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3108/15423 [2:40:38<10:36:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3109/15423 [2:40:40<10:36:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3109/15423 [2:40:40<10:36:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3110/15423 [2:40:44<10:36:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3110/15423 [2:40:44<10:36:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3111/15423 [2:40:49<10:36:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3111/15423 [2:40:49<10:36:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3112/15423 [2:40:51<10:36:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3112/15423 [2:40:51<10:36:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3113/15423 [2:40:52<10:36:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3113/15423 [2:40:52<10:36:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3114/15423 [2:40:55<10:36:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3114/15423 [2:40:55<10:36:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3115/15423 [2:40:57<10:35:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3115/15423 [2:40:57<10:35:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3116/15423 [2:40:58<10:35:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3116/15423 [2:40:58<10:35:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3117/15423 [2:40:59<10:35:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3117/15423 [2:40:59<10:35:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3118/15423 [2:41:00<10:35:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3118/15423 [2:41:00<10:35:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3119/15423 [2:41:02<10:35:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3119/15423 [2:41:02<10:35:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3120/15423 [2:41:06<10:35:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3120/15423 [2:41:06<10:35:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3121/15423 [2:41:10<10:35:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3121/15423 [2:41:10<10:35:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3122/15423 [2:41:14<10:35:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3122/15423 [2:41:14<10:35:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3123/15423 [2:41:17<10:35:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3123/15423 [2:41:17<10:35:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3124/15423 [2:41:21<10:35:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3124/15423 [2:41:21<10:35:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3125/15423 [2:41:23<10:35:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3125/15423 [2:41:23<10:35:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3126/15423 [2:41:27<10:35:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3126/15423 [2:41:27<10:35:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3127/15423 [2:41:28<10:34:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3127/15423 [2:41:28<10:34:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3128/15423 [2:41:30<10:34:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3128/15423 [2:41:30<10:34:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3129/15423 [2:41:32<10:34:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3129/15423 [2:41:32<10:34:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3130/15423 [2:41:36<10:34:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3130/15423 [2:41:36<10:34:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3131/15423 [2:41:38<10:34:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3131/15423 [2:41:38<10:34:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3132/15423 [2:41:41<10:34:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3132/15423 [2:41:41<10:34:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3133/15423 [2:41:42<10:34:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3133/15423 [2:41:42<10:34:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3134/15423 [2:41:46<10:34:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3134/15423 [2:41:46<10:34:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3135/15423 [2:41:49<10:34:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3135/15423 [2:41:49<10:34:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3136/15423 [2:42:03<10:34:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3136/15423 [2:42:03<10:34:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3137/15423 [2:42:04<10:34:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3137/15423 [2:42:04<10:34:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3138/15423 [2:42:09<10:34:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3138/15423 [2:42:09<10:34:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3139/15423 [2:42:10<10:34:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3139/15423 [2:42:10<10:34:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3140/15423 [2:42:15<10:34:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3140/15423 [2:42:15<10:34:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3141/15423 [2:42:19<10:34:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3141/15423 [2:42:19<10:34:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3142/15423 [2:42:23<10:34:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3142/15423 [2:42:23<10:34:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3143/15423 [2:42:25<10:34:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3143/15423 [2:42:25<10:34:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3144/15423 [2:42:27<10:34:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3144/15423 [2:42:27<10:34:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3145/15423 [2:42:29<10:34:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3145/15423 [2:42:29<10:34:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3146/15423 [2:42:32<10:34:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3146/15423 [2:42:32<10:34:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3147/15423 [2:42:37<10:34:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3147/15423 [2:42:37<10:34:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3148/15423 [2:42:40<10:34:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3148/15423 [2:42:40<10:34:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3149/15423 [2:42:43<10:34:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3149/15423 [2:42:43<10:34:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3150/15423 [2:42:45<10:34:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3150/15423 [2:42:45<10:34:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3151/15423 [2:42:50<10:34:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3151/15423 [2:42:50<10:34:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3152/15423 [2:42:54<10:34:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3152/15423 [2:42:54<10:34:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3153/15423 [2:42:54<10:33:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3153/15423 [2:42:54<10:33:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3154/15423 [2:42:58<10:33:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3154/15423 [2:42:58<10:33:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3155/15423 [2:43:00<10:33:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3155/15423 [2:43:00<10:33:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3156/15423 [2:43:02<10:33:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3156/15423 [2:43:02<10:33:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3157/15423 [2:43:06<10:33:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3157/15423 [2:43:06<10:33:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3158/15423 [2:43:09<10:33:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3158/15423 [2:43:09<10:33:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3159/15423 [2:43:13<10:33:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3159/15423 [2:43:13<10:33:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3160/15423 [2:43:14<10:33:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3160/15423 [2:43:14<10:33:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  20%|▏| 3161/15423 [2:43:17<10:33:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  20%|▏| 3161/15423 [2:43:17<10:33:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3162/15423 [2:43:19<10:33:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3162/15423 [2:43:19<10:33:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3163/15423 [2:43:20<10:33:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3163/15423 [2:43:20<10:33:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3164/15423 [2:43:24<10:33:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3164/15423 [2:43:24<10:33:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3165/15423 [2:43:26<10:32:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3165/15423 [2:43:26<10:32:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3166/15423 [2:43:29<10:32:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3166/15423 [2:43:29<10:32:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3167/15423 [2:43:30<10:32:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3167/15423 [2:43:30<10:32:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3168/15423 [2:43:40<10:33:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3168/15423 [2:43:40<10:33:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3169/15423 [2:43:44<10:33:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3169/15423 [2:43:44<10:33:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3170/15423 [2:43:44<10:32:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3170/15423 [2:43:44<10:32:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3171/15423 [2:43:45<10:32:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3171/15423 [2:43:45<10:32:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3172/15423 [2:43:49<10:32:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3172/15423 [2:43:49<10:32:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3173/15423 [2:43:50<10:32:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3173/15423 [2:43:50<10:32:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3174/15423 [2:43:53<10:32:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3174/15423 [2:43:53<10:32:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3175/15423 [2:43:55<10:32:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3175/15423 [2:43:55<10:32:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3176/15423 [2:43:59<10:32:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3176/15423 [2:43:59<10:32:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3177/15423 [2:44:04<10:32:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3177/15423 [2:44:04<10:32:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3178/15423 [2:44:05<10:32:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3178/15423 [2:44:05<10:32:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3179/15423 [2:44:08<10:32:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3179/15423 [2:44:08<10:32:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3180/15423 [2:44:11<10:32:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3180/15423 [2:44:11<10:32:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3181/15423 [2:44:16<10:32:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3181/15423 [2:44:16<10:32:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3182/15423 [2:44:18<10:32:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3182/15423 [2:44:18<10:32:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3183/15423 [2:44:22<10:32:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3183/15423 [2:44:22<10:32:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3184/15423 [2:44:22<10:31:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3184/15423 [2:44:22<10:31:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3185/15423 [2:44:23<10:31:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3185/15423 [2:44:23<10:31:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3186/15423 [2:44:24<10:31:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3186/15423 [2:44:24<10:31:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3187/15423 [2:44:28<10:31:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3187/15423 [2:44:28<10:31:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3188/15423 [2:44:30<10:31:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3188/15423 [2:44:30<10:31:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3189/15423 [2:44:30<10:31:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3189/15423 [2:44:30<10:31:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3190/15423 [2:44:35<10:31:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3190/15423 [2:44:35<10:31:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3191/15423 [2:44:36<10:30:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3191/15423 [2:44:36<10:30:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3192/15423 [2:44:37<10:30:48,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3192/15423 [2:44:37<10:30:48,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3193/15423 [2:44:39<10:30:40,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3193/15423 [2:44:39<10:30:40,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3194/15423 [2:44:43<10:30:40,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3194/15423 [2:44:43<10:30:40,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3195/15423 [2:44:47<10:30:41,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3195/15423 [2:44:47<10:30:41,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3196/15423 [2:44:50<10:30:39,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3196/15423 [2:44:50<10:30:39,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3197/15423 [2:44:51<10:30:27,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3197/15423 [2:44:51<10:30:27,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3198/15423 [2:44:55<10:30:28,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3198/15423 [2:44:55<10:30:28,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3199/15423 [2:44:59<10:30:26,  3.09s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3199/15423 [2:44:59<10:30:26,  3.09s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3200/15423 [2:45:27<10:31:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3200/15423 [2:45:27<10:31:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3201/15423 [2:45:56<10:33:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3201/15423 [2:45:56<10:33:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3202/15423 [2:46:00<10:33:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3202/15423 [2:46:00<10:33:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3203/15423 [2:46:02<10:33:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3203/15423 [2:46:02<10:33:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3204/15423 [2:46:04<10:33:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3204/15423 [2:46:04<10:33:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3205/15423 [2:46:07<10:33:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3205/15423 [2:46:07<10:33:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3206/15423 [2:46:11<10:33:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3206/15423 [2:46:11<10:33:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3207/15423 [2:46:14<10:33:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3207/15423 [2:46:14<10:33:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3208/15423 [2:46:15<10:33:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3208/15423 [2:46:15<10:33:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3209/15423 [2:46:16<10:32:52,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3209/15423 [2:46:16<10:32:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3210/15423 [2:46:20<10:32:52,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3210/15423 [2:46:20<10:32:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3211/15423 [2:46:24<10:32:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3211/15423 [2:46:24<10:32:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3212/15423 [2:46:25<10:32:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3212/15423 [2:46:25<10:32:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3213/15423 [2:46:27<10:32:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3213/15423 [2:46:27<10:32:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3214/15423 [2:46:28<10:32:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3214/15423 [2:46:28<10:32:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3215/15423 [2:46:31<10:32:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3215/15423 [2:46:31<10:32:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3216/15423 [2:46:32<10:32:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3216/15423 [2:46:32<10:32:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3217/15423 [2:46:34<10:31:59,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3217/15423 [2:46:34<10:31:59,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3218/15423 [2:46:35<10:31:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3218/15423 [2:46:35<10:31:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3219/15423 [2:46:40<10:31:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3219/15423 [2:46:40<10:31:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3220/15423 [2:46:44<10:31:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3220/15423 [2:46:44<10:31:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3221/15423 [2:46:45<10:31:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3221/15423 [2:46:45<10:31:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3222/15423 [2:46:47<10:31:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3222/15423 [2:46:47<10:31:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3223/15423 [2:46:51<10:31:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3223/15423 [2:46:51<10:31:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3224/15423 [2:46:53<10:31:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3224/15423 [2:46:53<10:31:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3225/15423 [2:46:58<10:31:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3225/15423 [2:46:58<10:31:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3226/15423 [2:47:00<10:31:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3226/15423 [2:47:00<10:31:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3227/15423 [2:47:00<10:31:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3227/15423 [2:47:00<10:31:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3228/15423 [2:47:02<10:31:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3228/15423 [2:47:02<10:31:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3229/15423 [2:47:06<10:31:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3229/15423 [2:47:06<10:31:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3230/15423 [2:47:07<10:30:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3230/15423 [2:47:07<10:30:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3231/15423 [2:47:09<10:30:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3231/15423 [2:47:09<10:30:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3232/15423 [2:47:25<10:31:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3232/15423 [2:47:25<10:31:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3233/15423 [2:47:28<10:31:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3233/15423 [2:47:28<10:31:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3234/15423 [2:47:29<10:31:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3234/15423 [2:47:29<10:31:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3235/15423 [2:47:30<10:31:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3235/15423 [2:47:30<10:31:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3236/15423 [2:47:34<10:31:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3236/15423 [2:47:34<10:31:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3237/15423 [2:47:37<10:31:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3237/15423 [2:47:37<10:31:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3238/15423 [2:47:39<10:30:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3238/15423 [2:47:39<10:30:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3239/15423 [2:47:41<10:30:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3239/15423 [2:47:41<10:30:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3240/15423 [2:47:43<10:30:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3240/15423 [2:47:43<10:30:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3241/15423 [2:47:47<10:30:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3241/15423 [2:47:47<10:30:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3242/15423 [2:47:51<10:30:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3242/15423 [2:47:51<10:30:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3243/15423 [2:47:53<10:30:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3243/15423 [2:47:53<10:30:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3244/15423 [2:47:56<10:30:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3244/15423 [2:47:56<10:30:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3245/15423 [2:47:58<10:30:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3245/15423 [2:47:58<10:30:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3246/15423 [2:48:02<10:30:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3246/15423 [2:48:02<10:30:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3247/15423 [2:48:07<10:30:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3247/15423 [2:48:07<10:30:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3248/15423 [2:48:08<10:30:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3248/15423 [2:48:08<10:30:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3249/15423 [2:48:10<10:30:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3249/15423 [2:48:10<10:30:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3250/15423 [2:48:14<10:30:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3250/15423 [2:48:14<10:30:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3251/15423 [2:48:18<10:30:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3251/15423 [2:48:18<10:30:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3252/15423 [2:48:21<10:30:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3252/15423 [2:48:21<10:30:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3253/15423 [2:48:24<10:30:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3253/15423 [2:48:24<10:30:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3254/15423 [2:48:26<10:29:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3254/15423 [2:48:26<10:29:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3255/15423 [2:48:30<10:29:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3255/15423 [2:48:30<10:29:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3256/15423 [2:48:30<10:29:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3256/15423 [2:48:30<10:29:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3257/15423 [2:48:31<10:29:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3257/15423 [2:48:31<10:29:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3258/15423 [2:48:34<10:29:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3258/15423 [2:48:34<10:29:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3259/15423 [2:48:37<10:29:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3259/15423 [2:48:37<10:29:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3260/15423 [2:48:40<10:29:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3260/15423 [2:48:40<10:29:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3261/15423 [2:48:43<10:29:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3261/15423 [2:48:43<10:29:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3262/15423 [2:48:45<10:29:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3262/15423 [2:48:45<10:29:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3263/15423 [2:48:46<10:28:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3263/15423 [2:48:46<10:28:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3264/15423 [2:49:11<10:30:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3264/15423 [2:49:11<10:30:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3265/15423 [2:49:12<10:30:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3265/15423 [2:49:12<10:30:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3266/15423 [2:49:12<10:29:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3266/15423 [2:49:12<10:29:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3267/15423 [2:49:14<10:29:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3267/15423 [2:49:14<10:29:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3268/15423 [2:49:18<10:29:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3268/15423 [2:49:18<10:29:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3269/15423 [2:49:21<10:29:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3269/15423 [2:49:21<10:29:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3270/15423 [2:49:24<10:29:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3270/15423 [2:49:24<10:29:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3271/15423 [2:49:28<10:29:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3271/15423 [2:49:28<10:29:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3272/15423 [2:49:30<10:29:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3272/15423 [2:49:30<10:29:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3273/15423 [2:49:31<10:29:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3273/15423 [2:49:31<10:29:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3274/15423 [2:49:34<10:29:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3274/15423 [2:49:34<10:29:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3275/15423 [2:49:36<10:29:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3275/15423 [2:49:36<10:29:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3276/15423 [2:49:37<10:28:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3276/15423 [2:49:37<10:28:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3277/15423 [2:49:40<10:28:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3277/15423 [2:49:40<10:28:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3278/15423 [2:49:44<10:28:52,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3278/15423 [2:49:44<10:28:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3279/15423 [2:49:47<10:28:48,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3279/15423 [2:49:47<10:28:48,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3280/15423 [2:49:50<10:28:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3280/15423 [2:49:50<10:28:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3281/15423 [2:49:54<10:28:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3281/15423 [2:49:54<10:28:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3282/15423 [2:49:55<10:28:35,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3282/15423 [2:49:55<10:28:35,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3283/15423 [2:49:57<10:28:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3283/15423 [2:49:57<10:28:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3284/15423 [2:49:58<10:28:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3284/15423 [2:49:58<10:28:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3285/15423 [2:50:02<10:28:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3285/15423 [2:50:02<10:28:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3286/15423 [2:50:06<10:28:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3286/15423 [2:50:06<10:28:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3287/15423 [2:50:11<10:28:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3287/15423 [2:50:11<10:28:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3288/15423 [2:50:15<10:28:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3288/15423 [2:50:15<10:28:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3289/15423 [2:50:16<10:28:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3289/15423 [2:50:16<10:28:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3290/15423 [2:50:19<10:28:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3290/15423 [2:50:19<10:28:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3291/15423 [2:50:20<10:27:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3291/15423 [2:50:20<10:27:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3292/15423 [2:50:21<10:27:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3292/15423 [2:50:21<10:27:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3293/15423 [2:50:25<10:27:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3293/15423 [2:50:25<10:27:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3294/15423 [2:50:27<10:27:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3294/15423 [2:50:27<10:27:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3295/15423 [2:50:30<10:27:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3295/15423 [2:50:30<10:27:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3296/15423 [2:50:44<10:28:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3296/15423 [2:50:44<10:28:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3297/15423 [2:50:46<10:28:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3297/15423 [2:50:46<10:28:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3298/15423 [2:50:47<10:27:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3298/15423 [2:50:47<10:27:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3299/15423 [2:50:48<10:27:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3299/15423 [2:50:48<10:27:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3300/15423 [2:50:53<10:27:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3300/15423 [2:50:53<10:27:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3301/15423 [2:50:54<10:27:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3301/15423 [2:50:54<10:27:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3302/15423 [2:50:57<10:27:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3302/15423 [2:50:57<10:27:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3303/15423 [2:50:59<10:27:26,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3303/15423 [2:50:59<10:27:26,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3304/15423 [2:51:01<10:27:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3304/15423 [2:51:01<10:27:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3305/15423 [2:51:05<10:27:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3305/15423 [2:51:05<10:27:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3306/15423 [2:51:09<10:27:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3306/15423 [2:51:09<10:27:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3307/15423 [2:51:10<10:27:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3307/15423 [2:51:10<10:27:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3308/15423 [2:51:13<10:27:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3308/15423 [2:51:13<10:27:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3309/15423 [2:51:16<10:27:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3309/15423 [2:51:16<10:27:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3310/15423 [2:51:21<10:27:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3310/15423 [2:51:21<10:27:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3311/15423 [2:51:22<10:26:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3311/15423 [2:51:22<10:26:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3312/15423 [2:51:25<10:26:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3312/15423 [2:51:25<10:26:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3313/15423 [2:51:28<10:26:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3313/15423 [2:51:28<10:26:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3314/15423 [2:51:31<10:26:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3314/15423 [2:51:31<10:26:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  21%|▏| 3315/15423 [2:51:35<10:26:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  21%|▏| 3315/15423 [2:51:35<10:26:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3316/15423 [2:51:39<10:26:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3316/15423 [2:51:39<10:26:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3317/15423 [2:51:42<10:26:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3317/15423 [2:51:42<10:26:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3318/15423 [2:51:43<10:26:29,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3318/15423 [2:51:43<10:26:29,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3319/15423 [2:51:46<10:26:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3319/15423 [2:51:46<10:26:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3320/15423 [2:51:49<10:26:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3320/15423 [2:51:49<10:26:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3321/15423 [2:51:51<10:26:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3321/15423 [2:51:51<10:26:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3322/15423 [2:51:53<10:26:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3322/15423 [2:51:53<10:26:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3323/15423 [2:51:57<10:26:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3323/15423 [2:51:57<10:26:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3324/15423 [2:51:59<10:26:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3324/15423 [2:51:59<10:26:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3325/15423 [2:52:00<10:25:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3325/15423 [2:52:00<10:25:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3326/15423 [2:52:03<10:25:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3326/15423 [2:52:03<10:25:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3327/15423 [2:52:07<10:25:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3327/15423 [2:52:07<10:25:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3328/15423 [2:52:29<10:26:52,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3328/15423 [2:52:29<10:26:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3329/15423 [2:52:31<10:26:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3329/15423 [2:52:31<10:26:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3330/15423 [2:52:35<10:26:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3330/15423 [2:52:35<10:26:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3331/15423 [2:52:38<10:26:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3331/15423 [2:52:38<10:26:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3332/15423 [2:52:40<10:26:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3332/15423 [2:52:40<10:26:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3333/15423 [2:52:42<10:26:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3333/15423 [2:52:42<10:26:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3334/15423 [2:52:44<10:26:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3334/15423 [2:52:44<10:26:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3335/15423 [2:52:46<10:26:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3335/15423 [2:52:46<10:26:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3336/15423 [2:52:50<10:26:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3336/15423 [2:52:50<10:26:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3337/15423 [2:52:53<10:26:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3337/15423 [2:52:53<10:26:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3338/15423 [2:52:55<10:26:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3338/15423 [2:52:55<10:26:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3339/15423 [2:52:56<10:25:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3339/15423 [2:52:56<10:25:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3340/15423 [2:52:57<10:25:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3340/15423 [2:52:57<10:25:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3341/15423 [2:52:59<10:25:35,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3341/15423 [2:52:59<10:25:35,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3342/15423 [2:53:02<10:25:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3342/15423 [2:53:02<10:25:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3343/15423 [2:53:05<10:25:26,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3343/15423 [2:53:05<10:25:26,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3344/15423 [2:53:08<10:25:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3344/15423 [2:53:08<10:25:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3345/15423 [2:53:11<10:25:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3345/15423 [2:53:11<10:25:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3346/15423 [2:53:13<10:25:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3346/15423 [2:53:13<10:25:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3347/15423 [2:53:17<10:25:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3347/15423 [2:53:17<10:25:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3348/15423 [2:53:20<10:25:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3348/15423 [2:53:20<10:25:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3349/15423 [2:53:21<10:25:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3349/15423 [2:53:21<10:25:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3350/15423 [2:53:25<10:24:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3350/15423 [2:53:25<10:24:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3351/15423 [2:53:25<10:24:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3351/15423 [2:53:25<10:24:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3352/15423 [2:53:26<10:24:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3352/15423 [2:53:26<10:24:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3353/15423 [2:53:29<10:24:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3353/15423 [2:53:29<10:24:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3354/15423 [2:53:31<10:24:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3354/15423 [2:53:31<10:24:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3355/15423 [2:53:34<10:24:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3355/15423 [2:53:34<10:24:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3356/15423 [2:53:38<10:24:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3356/15423 [2:53:38<10:24:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3357/15423 [2:53:40<10:24:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3357/15423 [2:53:40<10:24:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3358/15423 [2:53:43<10:24:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3358/15423 [2:53:43<10:24:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3359/15423 [2:53:47<10:24:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3359/15423 [2:53:47<10:24:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3360/15423 [2:54:11<10:25:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3360/15423 [2:54:11<10:25:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3361/15423 [2:54:15<10:25:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3361/15423 [2:54:15<10:25:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3362/15423 [2:54:16<10:25:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3362/15423 [2:54:16<10:25:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3363/15423 [2:54:20<10:25:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3363/15423 [2:54:20<10:25:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3364/15423 [2:54:21<10:25:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3364/15423 [2:54:21<10:25:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3365/15423 [2:54:26<10:25:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3365/15423 [2:54:26<10:25:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3366/15423 [2:54:30<10:25:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3366/15423 [2:54:30<10:25:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3367/15423 [2:54:30<10:24:52,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3367/15423 [2:54:30<10:24:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3368/15423 [2:54:31<10:24:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3368/15423 [2:54:31<10:24:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3369/15423 [2:54:35<10:24:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3369/15423 [2:54:35<10:24:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3370/15423 [2:54:37<10:24:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3370/15423 [2:54:37<10:24:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3371/15423 [2:54:42<10:24:35,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3371/15423 [2:54:42<10:24:35,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3372/15423 [2:54:43<10:24:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3372/15423 [2:54:43<10:24:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3373/15423 [2:54:45<10:24:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3373/15423 [2:54:45<10:24:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3374/15423 [2:54:46<10:24:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3374/15423 [2:54:46<10:24:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3375/15423 [2:54:48<10:24:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3375/15423 [2:54:48<10:24:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3376/15423 [2:54:52<10:24:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3376/15423 [2:54:52<10:24:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3377/15423 [2:54:54<10:23:52,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3377/15423 [2:54:54<10:23:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3378/15423 [2:54:58<10:23:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3378/15423 [2:54:58<10:23:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3379/15423 [2:55:02<10:23:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3379/15423 [2:55:02<10:23:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3380/15423 [2:55:05<10:23:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3380/15423 [2:55:05<10:23:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3381/15423 [2:55:10<10:23:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3381/15423 [2:55:10<10:23:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3382/15423 [2:55:11<10:23:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3382/15423 [2:55:11<10:23:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3383/15423 [2:55:16<10:23:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3383/15423 [2:55:16<10:23:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3384/15423 [2:55:17<10:23:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3384/15423 [2:55:17<10:23:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3385/15423 [2:55:21<10:23:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3385/15423 [2:55:21<10:23:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3386/15423 [2:55:24<10:23:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3386/15423 [2:55:24<10:23:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3387/15423 [2:55:26<10:23:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3387/15423 [2:55:26<10:23:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3388/15423 [2:55:27<10:23:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3388/15423 [2:55:27<10:23:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3389/15423 [2:55:28<10:23:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3389/15423 [2:55:28<10:23:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3390/15423 [2:55:32<10:23:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3390/15423 [2:55:32<10:23:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3391/15423 [2:55:35<10:23:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3391/15423 [2:55:35<10:23:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3392/15423 [2:55:45<10:23:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3392/15423 [2:55:45<10:23:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3393/15423 [2:55:49<10:23:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3393/15423 [2:55:49<10:23:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3394/15423 [2:55:50<10:23:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3394/15423 [2:55:50<10:23:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3395/15423 [2:55:51<10:23:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3395/15423 [2:55:51<10:23:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3396/15423 [2:55:54<10:23:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3396/15423 [2:55:54<10:23:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3397/15423 [2:55:57<10:22:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3397/15423 [2:55:57<10:22:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3398/15423 [2:55:59<10:22:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3398/15423 [2:55:59<10:22:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3399/15423 [2:56:02<10:22:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3399/15423 [2:56:02<10:22:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3400/15423 [2:56:06<10:22:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3400/15423 [2:56:06<10:22:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3401/15423 [2:56:09<10:22:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3401/15423 [2:56:09<10:22:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3402/15423 [2:56:11<10:22:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3402/15423 [2:56:11<10:22:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3403/15423 [2:56:12<10:22:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3403/15423 [2:56:12<10:22:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3404/15423 [2:56:15<10:22:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3404/15423 [2:56:15<10:22:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3405/15423 [2:56:16<10:22:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3405/15423 [2:56:16<10:22:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3406/15423 [2:56:18<10:22:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3406/15423 [2:56:18<10:22:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3407/15423 [2:56:21<10:21:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3407/15423 [2:56:21<10:21:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3408/15423 [2:56:25<10:21:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3408/15423 [2:56:25<10:21:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3409/15423 [2:56:26<10:21:48,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3409/15423 [2:56:26<10:21:48,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3410/15423 [2:56:30<10:21:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3410/15423 [2:56:30<10:21:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3411/15423 [2:56:34<10:21:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3411/15423 [2:56:34<10:21:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3412/15423 [2:56:39<10:21:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3412/15423 [2:56:39<10:21:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3413/15423 [2:56:39<10:21:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3413/15423 [2:56:39<10:21:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3414/15423 [2:56:42<10:21:35,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3414/15423 [2:56:42<10:21:35,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3415/15423 [2:56:46<10:21:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3415/15423 [2:56:46<10:21:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3416/15423 [2:56:50<10:21:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3416/15423 [2:56:50<10:21:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3417/15423 [2:56:53<10:21:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3417/15423 [2:56:53<10:21:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3418/15423 [2:56:57<10:21:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3418/15423 [2:56:57<10:21:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3419/15423 [2:57:00<10:21:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3419/15423 [2:57:00<10:21:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3420/15423 [2:57:04<10:21:26,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3420/15423 [2:57:04<10:21:26,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3421/15423 [2:57:08<10:21:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3421/15423 [2:57:08<10:21:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3422/15423 [2:57:11<10:21:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3422/15423 [2:57:11<10:21:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3423/15423 [2:57:15<10:21:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3423/15423 [2:57:15<10:21:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3424/15423 [2:57:27<10:21:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3424/15423 [2:57:27<10:21:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3425/15423 [2:57:28<10:21:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3425/15423 [2:57:28<10:21:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3426/15423 [2:57:31<10:21:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3426/15423 [2:57:31<10:21:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3427/15423 [2:57:34<10:21:35,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3427/15423 [2:57:34<10:21:35,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3428/15423 [2:57:38<10:21:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3428/15423 [2:57:38<10:21:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3429/15423 [2:57:43<10:21:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3429/15423 [2:57:43<10:21:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3430/15423 [2:57:43<10:21:26,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3430/15423 [2:57:43<10:21:26,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3431/15423 [2:57:47<10:21:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3431/15423 [2:57:47<10:21:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3432/15423 [2:57:51<10:21:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3432/15423 [2:57:51<10:21:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3433/15423 [2:57:52<10:21:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3433/15423 [2:57:52<10:21:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3434/15423 [2:57:56<10:21:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3434/15423 [2:57:56<10:21:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3435/15423 [2:57:57<10:21:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3435/15423 [2:57:57<10:21:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3436/15423 [2:58:01<10:21:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3436/15423 [2:58:01<10:21:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3437/15423 [2:58:04<10:21:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3437/15423 [2:58:04<10:21:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3438/15423 [2:58:08<10:21:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3438/15423 [2:58:08<10:21:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3439/15423 [2:58:13<10:21:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3439/15423 [2:58:13<10:21:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3440/15423 [2:58:13<10:20:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3440/15423 [2:58:13<10:20:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3441/15423 [2:58:17<10:20:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3441/15423 [2:58:17<10:20:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3442/15423 [2:58:20<10:20:48,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3442/15423 [2:58:20<10:20:48,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3443/15423 [2:58:23<10:20:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3443/15423 [2:58:23<10:20:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3444/15423 [2:58:27<10:20:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3444/15423 [2:58:27<10:20:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3445/15423 [2:58:30<10:20:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3445/15423 [2:58:30<10:20:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3446/15423 [2:58:33<10:20:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3446/15423 [2:58:33<10:20:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3447/15423 [2:58:34<10:20:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3447/15423 [2:58:34<10:20:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3448/15423 [2:58:37<10:20:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3448/15423 [2:58:37<10:20:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3449/15423 [2:58:40<10:20:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3449/15423 [2:58:40<10:20:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3450/15423 [2:58:43<10:20:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3450/15423 [2:58:43<10:20:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3451/15423 [2:58:45<10:20:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3451/15423 [2:58:45<10:20:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3452/15423 [2:58:46<10:19:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3452/15423 [2:58:46<10:19:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3453/15423 [2:58:49<10:19:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3453/15423 [2:58:49<10:19:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3454/15423 [2:58:50<10:19:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3454/15423 [2:58:50<10:19:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3455/15423 [2:58:53<10:19:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3455/15423 [2:58:53<10:19:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3456/15423 [2:59:09<10:20:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3456/15423 [2:59:09<10:20:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3457/15423 [2:59:13<10:20:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3457/15423 [2:59:13<10:20:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3458/15423 [2:59:16<10:20:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3458/15423 [2:59:16<10:20:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3459/15423 [2:59:17<10:20:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3459/15423 [2:59:17<10:20:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3460/15423 [2:59:21<10:20:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3460/15423 [2:59:21<10:20:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3461/15423 [2:59:24<10:20:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3461/15423 [2:59:24<10:20:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3462/15423 [2:59:26<10:19:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3462/15423 [2:59:26<10:19:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3463/15423 [2:59:29<10:19:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3463/15423 [2:59:29<10:19:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3464/15423 [2:59:33<10:19:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3464/15423 [2:59:33<10:19:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3465/15423 [2:59:34<10:19:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3465/15423 [2:59:34<10:19:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3466/15423 [2:59:36<10:19:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3466/15423 [2:59:36<10:19:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3467/15423 [2:59:37<10:19:26,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3467/15423 [2:59:37<10:19:26,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3468/15423 [2:59:40<10:19:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3468/15423 [2:59:40<10:19:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3469/15423 [2:59:43<10:19:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3469/15423 [2:59:43<10:19:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  22%|▏| 3470/15423 [2:59:45<10:19:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  22%|▏| 3470/15423 [2:59:45<10:19:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3471/15423 [2:59:47<10:19:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3471/15423 [2:59:47<10:19:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3472/15423 [2:59:51<10:19:06,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3472/15423 [2:59:51<10:19:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3473/15423 [2:59:55<10:19:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3473/15423 [2:59:55<10:19:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3474/15423 [2:59:56<10:18:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3474/15423 [2:59:56<10:18:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3475/15423 [2:59:58<10:18:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3475/15423 [2:59:58<10:18:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3476/15423 [3:00:01<10:18:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3476/15423 [3:00:01<10:18:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3477/15423 [3:00:05<10:18:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3477/15423 [3:00:05<10:18:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3478/15423 [3:00:07<10:18:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3478/15423 [3:00:07<10:18:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3479/15423 [3:00:12<10:18:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3479/15423 [3:00:12<10:18:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3480/15423 [3:00:14<10:18:35,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3480/15423 [3:00:14<10:18:35,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3481/15423 [3:00:16<10:18:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3481/15423 [3:00:16<10:18:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3482/15423 [3:00:18<10:18:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3482/15423 [3:00:18<10:18:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3483/15423 [3:00:22<10:18:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3483/15423 [3:00:22<10:18:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3484/15423 [3:00:22<10:18:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3484/15423 [3:00:22<10:18:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3485/15423 [3:00:23<10:17:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3485/15423 [3:00:23<10:17:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3486/15423 [3:00:25<10:17:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3486/15423 [3:00:25<10:17:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3487/15423 [3:00:29<10:17:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3487/15423 [3:00:29<10:17:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3488/15423 [3:00:45<10:18:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3488/15423 [3:00:45<10:18:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3489/15423 [3:00:50<10:18:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3489/15423 [3:00:50<10:18:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3490/15423 [3:00:54<10:18:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3490/15423 [3:00:54<10:18:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3491/15423 [3:00:55<10:18:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3491/15423 [3:00:55<10:18:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3492/15423 [3:00:57<10:18:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3492/15423 [3:00:57<10:18:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3493/15423 [3:01:01<10:18:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3493/15423 [3:01:01<10:18:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3494/15423 [3:01:05<10:18:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3494/15423 [3:01:05<10:18:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3495/15423 [3:01:06<10:18:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3495/15423 [3:01:06<10:18:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3496/15423 [3:01:08<10:17:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3496/15423 [3:01:08<10:17:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3497/15423 [3:01:12<10:17:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3497/15423 [3:01:12<10:17:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3498/15423 [3:01:15<10:17:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3498/15423 [3:01:15<10:17:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3499/15423 [3:01:19<10:17:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3499/15423 [3:01:19<10:17:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3500/15423 [3:01:22<10:17:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3500/15423 [3:01:22<10:17:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3501/15423 [3:01:24<10:17:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3501/15423 [3:01:24<10:17:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3502/15423 [3:01:27<10:17:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3502/15423 [3:01:27<10:17:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3503/15423 [3:01:31<10:17:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3503/15423 [3:01:31<10:17:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3504/15423 [3:01:32<10:17:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3504/15423 [3:01:32<10:17:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3505/15423 [3:01:33<10:17:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3505/15423 [3:01:33<10:17:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3506/15423 [3:01:36<10:17:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3506/15423 [3:01:36<10:17:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3507/15423 [3:01:40<10:17:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3507/15423 [3:01:40<10:17:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3508/15423 [3:01:42<10:17:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3508/15423 [3:01:42<10:17:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3509/15423 [3:01:45<10:17:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3509/15423 [3:01:45<10:17:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3510/15423 [3:01:47<10:16:59,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3510/15423 [3:01:47<10:16:59,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3511/15423 [3:01:48<10:16:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3511/15423 [3:01:48<10:16:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3512/15423 [3:01:51<10:16:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3512/15423 [3:01:51<10:16:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3513/15423 [3:01:52<10:16:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3513/15423 [3:01:52<10:16:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3514/15423 [3:01:57<10:16:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3514/15423 [3:01:57<10:16:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3515/15423 [3:02:00<10:16:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3515/15423 [3:02:00<10:16:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3516/15423 [3:02:04<10:16:35,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3516/15423 [3:02:04<10:16:35,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3517/15423 [3:02:07<10:16:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3517/15423 [3:02:07<10:16:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3518/15423 [3:02:10<10:16:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3518/15423 [3:02:10<10:16:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3519/15423 [3:02:13<10:16:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3519/15423 [3:02:13<10:16:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3520/15423 [3:02:26<10:16:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3520/15423 [3:02:26<10:16:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3521/15423 [3:02:29<10:16:52,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3521/15423 [3:02:29<10:16:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3522/15423 [3:02:33<10:16:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3522/15423 [3:02:33<10:16:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3523/15423 [3:02:33<10:16:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3523/15423 [3:02:33<10:16:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3524/15423 [3:02:36<10:16:35,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3524/15423 [3:02:36<10:16:35,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3525/15423 [3:02:38<10:16:29,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3525/15423 [3:02:38<10:16:29,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3526/15423 [3:02:41<10:16:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3526/15423 [3:02:41<10:16:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3527/15423 [3:02:45<10:16:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3527/15423 [3:02:45<10:16:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3528/15423 [3:02:49<10:16:26,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3528/15423 [3:02:49<10:16:26,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3529/15423 [3:02:54<10:16:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3529/15423 [3:02:54<10:16:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3530/15423 [3:02:58<10:16:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3530/15423 [3:02:58<10:16:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3531/15423 [3:03:00<10:16:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3531/15423 [3:03:00<10:16:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3532/15423 [3:03:03<10:16:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3532/15423 [3:03:03<10:16:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3533/15423 [3:03:06<10:16:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3533/15423 [3:03:06<10:16:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3534/15423 [3:03:06<10:16:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3534/15423 [3:03:06<10:16:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3535/15423 [3:03:10<10:15:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3535/15423 [3:03:10<10:15:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3536/15423 [3:03:14<10:16:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3536/15423 [3:03:14<10:16:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3537/15423 [3:03:17<10:15:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3537/15423 [3:03:17<10:15:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3538/15423 [3:03:19<10:15:48,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3538/15423 [3:03:19<10:15:48,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3539/15423 [3:03:19<10:15:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3539/15423 [3:03:19<10:15:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3540/15423 [3:03:20<10:15:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3540/15423 [3:03:20<10:15:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3541/15423 [3:03:22<10:15:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3541/15423 [3:03:22<10:15:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3542/15423 [3:03:26<10:15:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3542/15423 [3:03:26<10:15:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3543/15423 [3:03:28<10:15:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3543/15423 [3:03:28<10:15:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3544/15423 [3:03:32<10:15:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3544/15423 [3:03:32<10:15:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3545/15423 [3:03:36<10:15:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3545/15423 [3:03:36<10:15:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3546/15423 [3:03:37<10:15:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3546/15423 [3:03:37<10:15:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3547/15423 [3:03:40<10:14:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3547/15423 [3:03:40<10:14:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3548/15423 [3:03:43<10:14:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3548/15423 [3:03:43<10:14:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3549/15423 [3:03:47<10:14:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3549/15423 [3:03:47<10:14:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3550/15423 [3:03:50<10:14:52,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3550/15423 [3:03:50<10:14:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3551/15423 [3:03:54<10:14:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3551/15423 [3:03:54<10:14:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3552/15423 [3:04:01<10:15:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3552/15423 [3:04:01<10:15:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3553/15423 [3:04:03<10:14:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3553/15423 [3:04:03<10:14:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3554/15423 [3:04:07<10:14:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3554/15423 [3:04:07<10:14:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3555/15423 [3:04:11<10:14:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3555/15423 [3:04:11<10:14:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3556/15423 [3:04:14<10:14:49,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3556/15423 [3:04:14<10:14:49,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3557/15423 [3:04:16<10:14:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3557/15423 [3:04:16<10:14:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3558/15423 [3:04:20<10:14:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3558/15423 [3:04:20<10:14:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3559/15423 [3:04:22<10:14:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3559/15423 [3:04:22<10:14:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3560/15423 [3:04:25<10:14:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3560/15423 [3:04:25<10:14:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3561/15423 [3:04:29<10:14:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3561/15423 [3:04:29<10:14:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3562/15423 [3:04:31<10:14:26,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3562/15423 [3:04:31<10:14:26,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3563/15423 [3:04:32<10:14:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3563/15423 [3:04:32<10:14:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3564/15423 [3:04:35<10:14:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3564/15423 [3:04:35<10:14:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3565/15423 [3:04:39<10:14:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3565/15423 [3:04:39<10:14:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3566/15423 [3:04:40<10:14:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3566/15423 [3:04:40<10:14:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3567/15423 [3:04:42<10:13:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3567/15423 [3:04:42<10:13:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3568/15423 [3:04:44<10:13:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3568/15423 [3:04:44<10:13:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3569/15423 [3:04:48<10:13:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3569/15423 [3:04:48<10:13:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3570/15423 [3:04:50<10:13:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3570/15423 [3:04:50<10:13:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3571/15423 [3:04:54<10:13:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3571/15423 [3:04:54<10:13:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3572/15423 [3:04:58<10:13:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3572/15423 [3:04:58<10:13:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3573/15423 [3:05:03<10:13:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3573/15423 [3:05:03<10:13:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3574/15423 [3:05:05<10:13:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3574/15423 [3:05:05<10:13:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3575/15423 [3:05:07<10:13:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3575/15423 [3:05:07<10:13:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3576/15423 [3:05:09<10:13:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3576/15423 [3:05:09<10:13:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3577/15423 [3:05:12<10:13:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3577/15423 [3:05:12<10:13:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3578/15423 [3:05:12<10:13:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3578/15423 [3:05:12<10:13:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3579/15423 [3:05:14<10:13:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3579/15423 [3:05:14<10:13:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3580/15423 [3:05:17<10:12:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3580/15423 [3:05:17<10:12:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3581/15423 [3:05:21<10:12:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3581/15423 [3:05:21<10:12:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3582/15423 [3:05:25<10:12:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3582/15423 [3:05:25<10:12:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3583/15423 [3:05:27<10:12:52,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3583/15423 [3:05:27<10:12:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3584/15423 [3:05:40<10:13:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3584/15423 [3:05:40<10:13:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3585/15423 [3:05:42<10:13:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3585/15423 [3:05:42<10:13:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3586/15423 [3:05:47<10:13:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3586/15423 [3:05:47<10:13:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3587/15423 [3:05:48<10:13:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3587/15423 [3:05:48<10:13:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3588/15423 [3:05:48<10:12:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3588/15423 [3:05:48<10:12:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3589/15423 [3:05:52<10:12:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3589/15423 [3:05:52<10:12:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3590/15423 [3:05:54<10:12:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3590/15423 [3:05:54<10:12:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3591/15423 [3:05:57<10:12:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3591/15423 [3:05:57<10:12:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3592/15423 [3:05:59<10:12:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3592/15423 [3:05:59<10:12:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3593/15423 [3:06:00<10:12:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3593/15423 [3:06:00<10:12:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3594/15423 [3:06:01<10:12:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3594/15423 [3:06:01<10:12:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3595/15423 [3:06:05<10:12:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3595/15423 [3:06:05<10:12:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3596/15423 [3:06:08<10:12:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3596/15423 [3:06:08<10:12:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3597/15423 [3:06:11<10:12:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3597/15423 [3:06:11<10:12:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3598/15423 [3:06:12<10:11:59,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3598/15423 [3:06:12<10:11:59,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3599/15423 [3:06:16<10:11:59,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3599/15423 [3:06:16<10:11:59,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3600/15423 [3:06:21<10:12:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3600/15423 [3:06:21<10:12:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3601/15423 [3:06:23<10:11:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3601/15423 [3:06:23<10:11:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3602/15423 [3:06:24<10:11:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3602/15423 [3:06:24<10:11:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3603/15423 [3:06:26<10:11:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3603/15423 [3:06:26<10:11:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3604/15423 [3:06:30<10:11:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3604/15423 [3:06:30<10:11:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3605/15423 [3:06:35<10:11:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3605/15423 [3:06:35<10:11:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3606/15423 [3:06:37<10:11:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3606/15423 [3:06:37<10:11:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3607/15423 [3:06:40<10:11:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3607/15423 [3:06:40<10:11:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3608/15423 [3:06:44<10:11:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3608/15423 [3:06:44<10:11:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3609/15423 [3:06:46<10:11:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3609/15423 [3:06:46<10:11:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3610/15423 [3:06:49<10:11:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3610/15423 [3:06:49<10:11:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3611/15423 [3:06:51<10:11:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3611/15423 [3:06:51<10:11:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3612/15423 [3:06:56<10:11:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3612/15423 [3:06:56<10:11:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3613/15423 [3:06:57<10:11:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3613/15423 [3:06:57<10:11:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3614/15423 [3:07:00<10:11:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3614/15423 [3:07:00<10:11:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3615/15423 [3:07:03<10:11:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3615/15423 [3:07:03<10:11:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3616/15423 [3:07:21<10:11:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3616/15423 [3:07:21<10:11:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3617/15423 [3:07:24<10:11:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3617/15423 [3:07:24<10:11:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3618/15423 [3:07:27<10:11:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3618/15423 [3:07:27<10:11:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3619/15423 [3:07:28<10:11:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3619/15423 [3:07:28<10:11:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3620/15423 [3:07:31<10:11:26,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3620/15423 [3:07:31<10:11:26,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3621/15423 [3:07:34<10:11:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3621/15423 [3:07:34<10:11:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3622/15423 [3:07:35<10:11:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3622/15423 [3:07:35<10:11:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3623/15423 [3:07:38<10:11:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3623/15423 [3:07:38<10:11:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  23%|▏| 3624/15423 [3:07:42<10:11:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  23%|▏| 3624/15423 [3:07:42<10:11:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3625/15423 [3:07:47<10:11:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3625/15423 [3:07:47<10:11:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3626/15423 [3:07:50<10:11:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3626/15423 [3:07:50<10:11:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3627/15423 [3:07:54<10:11:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3627/15423 [3:07:54<10:11:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3628/15423 [3:07:57<10:11:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3628/15423 [3:07:57<10:11:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3629/15423 [3:07:57<10:10:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3629/15423 [3:07:57<10:10:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3630/15423 [3:07:58<10:10:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3630/15423 [3:07:58<10:10:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3631/15423 [3:08:02<10:10:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3631/15423 [3:08:02<10:10:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3632/15423 [3:08:05<10:10:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3632/15423 [3:08:05<10:10:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3633/15423 [3:08:09<10:10:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3633/15423 [3:08:09<10:10:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3634/15423 [3:08:13<10:10:38,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3634/15423 [3:08:13<10:10:38,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3635/15423 [3:08:16<10:10:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3635/15423 [3:08:16<10:10:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3636/15423 [3:08:18<10:10:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3636/15423 [3:08:18<10:10:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3637/15423 [3:08:22<10:10:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3637/15423 [3:08:22<10:10:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3638/15423 [3:08:27<10:10:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3638/15423 [3:08:27<10:10:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3639/15423 [3:08:31<10:10:29,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3639/15423 [3:08:31<10:10:29,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3640/15423 [3:08:34<10:10:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3640/15423 [3:08:34<10:10:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3641/15423 [3:08:36<10:10:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3641/15423 [3:08:36<10:10:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3642/15423 [3:08:38<10:10:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3642/15423 [3:08:38<10:10:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3643/15423 [3:08:39<10:10:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3643/15423 [3:08:39<10:10:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3644/15423 [3:08:41<10:09:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3644/15423 [3:08:41<10:09:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3645/15423 [3:08:42<10:09:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3645/15423 [3:08:42<10:09:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3646/15423 [3:08:46<10:09:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3646/15423 [3:08:46<10:09:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3647/15423 [3:08:50<10:09:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3647/15423 [3:08:50<10:09:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3648/15423 [3:09:04<10:10:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3648/15423 [3:09:04<10:10:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3649/15423 [3:09:08<10:10:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3649/15423 [3:09:08<10:10:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3650/15423 [3:09:10<10:10:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3650/15423 [3:09:10<10:10:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3651/15423 [3:09:13<10:10:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3651/15423 [3:09:13<10:10:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3652/15423 [3:09:14<10:09:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3652/15423 [3:09:14<10:09:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3653/15423 [3:09:18<10:09:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3653/15423 [3:09:18<10:09:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3654/15423 [3:09:22<10:09:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3654/15423 [3:09:22<10:09:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3655/15423 [3:09:23<10:09:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3655/15423 [3:09:23<10:09:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3656/15423 [3:09:24<10:09:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3656/15423 [3:09:24<10:09:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3657/15423 [3:09:26<10:09:29,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3657/15423 [3:09:26<10:09:29,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3658/15423 [3:09:27<10:09:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3658/15423 [3:09:27<10:09:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3659/15423 [3:09:29<10:09:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3659/15423 [3:09:29<10:09:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3660/15423 [3:09:33<10:09:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3660/15423 [3:09:33<10:09:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3661/15423 [3:09:34<10:09:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3661/15423 [3:09:34<10:09:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3662/15423 [3:09:38<10:09:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3662/15423 [3:09:38<10:09:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3663/15423 [3:09:39<10:08:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3663/15423 [3:09:39<10:08:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3664/15423 [3:09:42<10:08:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3664/15423 [3:09:42<10:08:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3665/15423 [3:09:45<10:08:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3665/15423 [3:09:45<10:08:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3666/15423 [3:09:49<10:08:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3666/15423 [3:09:49<10:08:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3667/15423 [3:09:52<10:08:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3667/15423 [3:09:52<10:08:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3668/15423 [3:09:56<10:08:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3668/15423 [3:09:56<10:08:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3669/15423 [3:09:58<10:08:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3669/15423 [3:09:58<10:08:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3670/15423 [3:10:02<10:08:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3670/15423 [3:10:02<10:08:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3671/15423 [3:10:06<10:08:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3671/15423 [3:10:06<10:08:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3672/15423 [3:10:07<10:08:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3672/15423 [3:10:07<10:08:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3673/15423 [3:10:08<10:08:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3673/15423 [3:10:08<10:08:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3674/15423 [3:10:12<10:08:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3674/15423 [3:10:12<10:08:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3675/15423 [3:10:15<10:08:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3675/15423 [3:10:15<10:08:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3676/15423 [3:10:17<10:08:06,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3676/15423 [3:10:17<10:08:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3677/15423 [3:10:21<10:08:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3677/15423 [3:10:21<10:08:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3678/15423 [3:10:22<10:07:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3678/15423 [3:10:22<10:07:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3679/15423 [3:10:26<10:07:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3679/15423 [3:10:26<10:07:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3680/15423 [3:10:44<10:08:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3680/15423 [3:10:44<10:08:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3681/15423 [3:10:46<10:08:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3681/15423 [3:10:46<10:08:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3682/15423 [3:10:48<10:08:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3682/15423 [3:10:48<10:08:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3683/15423 [3:10:50<10:08:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3683/15423 [3:10:50<10:08:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3684/15423 [3:10:52<10:08:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3684/15423 [3:10:52<10:08:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3685/15423 [3:10:55<10:08:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3685/15423 [3:10:55<10:08:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3686/15423 [3:10:59<10:08:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3686/15423 [3:10:59<10:08:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3687/15423 [3:11:01<10:08:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3687/15423 [3:11:01<10:08:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3688/15423 [3:11:05<10:08:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3688/15423 [3:11:05<10:08:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3689/15423 [3:11:06<10:07:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3689/15423 [3:11:06<10:07:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3690/15423 [3:11:10<10:07:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3690/15423 [3:11:10<10:07:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3691/15423 [3:11:13<10:07:48,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3691/15423 [3:11:13<10:07:48,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3692/15423 [3:11:16<10:07:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3692/15423 [3:11:16<10:07:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3693/15423 [3:11:19<10:07:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3693/15423 [3:11:19<10:07:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3694/15423 [3:11:22<10:07:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3694/15423 [3:11:22<10:07:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3695/15423 [3:11:23<10:07:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3695/15423 [3:11:23<10:07:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3696/15423 [3:11:25<10:07:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3696/15423 [3:11:25<10:07:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3697/15423 [3:11:29<10:07:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3697/15423 [3:11:29<10:07:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3698/15423 [3:11:32<10:07:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3698/15423 [3:11:32<10:07:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3699/15423 [3:11:35<10:07:14,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3699/15423 [3:11:35<10:07:14,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3700/15423 [3:11:39<10:07:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3700/15423 [3:11:39<10:07:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3701/15423 [3:11:41<10:07:09,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3701/15423 [3:11:41<10:07:09,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3702/15423 [3:11:45<10:07:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3702/15423 [3:11:45<10:07:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3703/15423 [3:11:47<10:07:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3703/15423 [3:11:47<10:07:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3704/15423 [3:11:49<10:06:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3704/15423 [3:11:49<10:06:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3705/15423 [3:11:52<10:06:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3705/15423 [3:11:52<10:06:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3706/15423 [3:11:53<10:06:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3706/15423 [3:11:53<10:06:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3707/15423 [3:11:58<10:06:43,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3707/15423 [3:11:58<10:06:43,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3708/15423 [3:12:00<10:06:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3708/15423 [3:12:00<10:06:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3709/15423 [3:12:03<10:06:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3709/15423 [3:12:03<10:06:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3710/15423 [3:12:06<10:06:31,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3710/15423 [3:12:06<10:06:31,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3711/15423 [3:12:08<10:06:23,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3711/15423 [3:12:08<10:06:23,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3712/15423 [3:12:27<10:07:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3712/15423 [3:12:27<10:07:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3713/15423 [3:12:31<10:07:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3713/15423 [3:12:31<10:07:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3714/15423 [3:12:33<10:07:03,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3714/15423 [3:12:33<10:07:03,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3715/15423 [3:12:34<10:06:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3715/15423 [3:12:34<10:06:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3716/15423 [3:12:35<10:06:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3716/15423 [3:12:35<10:06:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3717/15423 [3:12:38<10:06:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3717/15423 [3:12:38<10:06:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3718/15423 [3:12:42<10:06:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3718/15423 [3:12:42<10:06:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3719/15423 [3:12:46<10:06:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3719/15423 [3:12:46<10:06:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3720/15423 [3:12:48<10:06:35,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3720/15423 [3:12:48<10:06:35,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3721/15423 [3:12:49<10:06:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3721/15423 [3:12:49<10:06:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3722/15423 [3:12:52<10:06:20,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3722/15423 [3:12:52<10:06:20,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3723/15423 [3:12:56<10:06:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3723/15423 [3:12:56<10:06:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3724/15423 [3:12:59<10:06:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3724/15423 [3:12:59<10:06:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3725/15423 [3:13:00<10:06:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3725/15423 [3:13:00<10:06:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3726/15423 [3:13:02<10:06:00,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3726/15423 [3:13:02<10:06:00,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3727/15423 [3:13:06<10:05:59,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3727/15423 [3:13:06<10:05:59,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3728/15423 [3:13:09<10:05:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3728/15423 [3:13:09<10:05:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3729/15423 [3:13:11<10:05:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3729/15423 [3:13:11<10:05:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3730/15423 [3:13:15<10:05:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3730/15423 [3:13:15<10:05:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3731/15423 [3:13:19<10:05:48,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3731/15423 [3:13:19<10:05:48,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3732/15423 [3:13:21<10:05:44,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3732/15423 [3:13:21<10:05:44,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3733/15423 [3:13:24<10:05:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3733/15423 [3:13:24<10:05:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3734/15423 [3:13:26<10:05:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3734/15423 [3:13:26<10:05:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3735/15423 [3:13:30<10:05:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3735/15423 [3:13:30<10:05:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3736/15423 [3:13:31<10:05:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3736/15423 [3:13:31<10:05:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3737/15423 [3:13:33<10:05:15,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3737/15423 [3:13:33<10:05:15,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3738/15423 [3:13:36<10:05:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3738/15423 [3:13:36<10:05:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3739/15423 [3:13:39<10:05:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3739/15423 [3:13:39<10:05:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3740/15423 [3:13:41<10:05:04,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3740/15423 [3:13:41<10:05:04,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3741/15423 [3:13:42<10:04:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3741/15423 [3:13:42<10:04:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3742/15423 [3:13:45<10:04:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3742/15423 [3:13:45<10:04:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3743/15423 [3:13:50<10:04:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3743/15423 [3:13:50<10:04:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3744/15423 [3:13:57<10:05:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3744/15423 [3:13:57<10:05:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3745/15423 [3:14:01<10:05:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3745/15423 [3:14:01<10:05:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3746/15423 [3:14:03<10:04:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3746/15423 [3:14:03<10:04:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3747/15423 [3:14:06<10:04:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3747/15423 [3:14:06<10:04:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3748/15423 [3:14:09<10:04:47,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3748/15423 [3:14:09<10:04:47,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3749/15423 [3:14:11<10:04:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3749/15423 [3:14:11<10:04:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3750/15423 [3:14:15<10:04:40,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3750/15423 [3:14:15<10:04:40,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3751/15423 [3:14:19<10:04:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3751/15423 [3:14:19<10:04:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3752/15423 [3:14:21<10:04:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3752/15423 [3:14:21<10:04:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3753/15423 [3:14:25<10:04:32,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3753/15423 [3:14:25<10:04:32,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3754/15423 [3:14:27<10:04:27,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3754/15423 [3:14:27<10:04:27,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3755/15423 [3:14:29<10:04:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3755/15423 [3:14:29<10:04:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3756/15423 [3:14:30<10:04:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3756/15423 [3:14:30<10:04:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3757/15423 [3:14:32<10:04:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3757/15423 [3:14:32<10:04:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3758/15423 [3:14:35<10:04:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3758/15423 [3:14:35<10:04:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3759/15423 [3:14:38<10:03:57,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3759/15423 [3:14:38<10:03:57,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3760/15423 [3:14:42<10:03:58,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3760/15423 [3:14:42<10:03:58,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3761/15423 [3:14:46<10:03:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3761/15423 [3:14:46<10:03:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3762/15423 [3:14:49<10:03:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3762/15423 [3:14:49<10:03:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3763/15423 [3:14:52<10:03:51,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3763/15423 [3:14:52<10:03:51,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3764/15423 [3:14:56<10:03:50,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3764/15423 [3:14:56<10:03:50,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3765/15423 [3:14:57<10:03:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3765/15423 [3:14:57<10:03:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3766/15423 [3:15:02<10:03:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3766/15423 [3:15:02<10:03:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3767/15423 [3:15:04<10:03:37,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3767/15423 [3:15:04<10:03:37,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3768/15423 [3:15:08<10:03:36,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3768/15423 [3:15:08<10:03:36,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3769/15423 [3:15:11<10:03:33,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3769/15423 [3:15:11<10:03:33,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3770/15423 [3:15:13<10:03:25,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3770/15423 [3:15:13<10:03:25,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3771/15423 [3:15:15<10:03:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3771/15423 [3:15:15<10:03:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3772/15423 [3:15:18<10:03:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3772/15423 [3:15:18<10:03:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3773/15423 [3:15:21<10:03:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3773/15423 [3:15:21<10:03:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3774/15423 [3:15:23<10:03:07,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3774/15423 [3:15:23<10:03:07,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3775/15423 [3:15:26<10:03:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3775/15423 [3:15:26<10:03:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3776/15423 [3:15:34<10:03:13,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3776/15423 [3:15:34<10:03:13,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3777/15423 [3:15:35<10:03:06,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3777/15423 [3:15:35<10:03:06,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  24%|▏| 3778/15423 [3:15:39<10:03:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  24%|▏| 3778/15423 [3:15:39<10:03:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3779/15423 [3:15:43<10:03:05,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3779/15423 [3:15:43<10:03:05,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3780/15423 [3:15:45<10:02:56,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3780/15423 [3:15:45<10:02:56,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3781/15423 [3:15:47<10:02:52,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3781/15423 [3:15:47<10:02:52,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3782/15423 [3:15:52<10:02:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3782/15423 [3:15:52<10:02:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3783/15423 [3:15:54<10:02:48,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3783/15423 [3:15:54<10:02:48,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3784/15423 [3:15:56<10:02:39,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3784/15423 [3:15:56<10:02:39,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3785/15423 [3:15:57<10:02:30,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3785/15423 [3:15:57<10:02:30,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3786/15423 [3:16:01<10:02:29,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3786/15423 [3:16:01<10:02:29,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3787/15423 [3:16:03<10:02:24,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3787/15423 [3:16:03<10:02:24,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3788/15423 [3:16:06<10:02:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3788/15423 [3:16:06<10:02:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3789/15423 [3:16:10<10:02:21,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3789/15423 [3:16:10<10:02:21,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3790/15423 [3:16:13<10:02:18,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3790/15423 [3:16:13<10:02:18,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3791/15423 [3:16:18<10:02:19,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3791/15423 [3:16:18<10:02:19,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3792/15423 [3:16:20<10:02:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3792/15423 [3:16:20<10:02:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3793/15423 [3:16:23<10:02:11,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3793/15423 [3:16:23<10:02:11,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3794/15423 [3:16:27<10:02:10,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3794/15423 [3:16:27<10:02:10,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3795/15423 [3:16:29<10:02:01,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3795/15423 [3:16:29<10:02:01,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3796/15423 [3:16:30<10:01:53,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3796/15423 [3:16:30<10:01:53,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3797/15423 [3:16:30<10:01:42,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3797/15423 [3:16:30<10:01:42,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3798/15423 [3:16:32<10:01:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3798/15423 [3:16:32<10:01:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3799/15423 [3:16:33<10:01:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3799/15423 [3:16:33<10:01:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3800/15423 [3:16:37<10:01:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3800/15423 [3:16:37<10:01:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3801/15423 [3:16:38<10:01:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3801/15423 [3:16:38<10:01:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3802/15423 [3:16:41<10:01:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3802/15423 [3:16:41<10:01:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3803/15423 [3:16:44<10:01:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3803/15423 [3:16:44<10:01:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3804/15423 [3:16:45<10:00:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3804/15423 [3:16:45<10:00:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3805/15423 [3:16:50<10:01:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3805/15423 [3:16:50<10:01:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3806/15423 [3:16:51<10:00:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3806/15423 [3:16:51<10:00:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3807/15423 [3:16:53<10:00:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3807/15423 [3:16:53<10:00:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3808/15423 [3:17:09<10:01:22,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3808/15423 [3:17:09<10:01:22,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3809/15423 [3:17:12<10:01:16,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3809/15423 [3:17:12<10:01:16,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3810/15423 [3:17:16<10:01:17,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3810/15423 [3:17:16<10:01:17,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3811/15423 [3:17:18<10:01:12,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3811/15423 [3:17:18<10:01:12,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3812/15423 [3:17:21<10:01:08,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3812/15423 [3:17:21<10:01:08,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3813/15423 [3:17:23<10:01:02,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3813/15423 [3:17:23<10:01:02,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3814/15423 [3:17:25<10:00:55,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3814/15423 [3:17:25<10:00:55,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3815/15423 [3:17:29<10:00:54,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3815/15423 [3:17:29<10:00:54,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3816/15423 [3:17:31<10:00:46,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3816/15423 [3:17:31<10:00:46,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3817/15423 [3:17:34<10:00:45,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3817/15423 [3:17:34<10:00:45,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3818/15423 [3:17:37<10:00:41,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3818/15423 [3:17:37<10:00:41,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3819/15423 [3:17:39<10:00:34,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3819/15423 [3:17:39<10:00:34,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3820/15423 [3:17:41<10:00:28,  3.11s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3820/15423 [3:17:41<10:00:28,  3.11s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3821/15423 [3:17:42<10:00:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3821/15423 [3:17:42<10:00:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3822/15423 [3:17:43<10:00:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3822/15423 [3:17:43<10:00:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3823/15423 [3:17:48<10:00:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3823/15423 [3:17:48<10:00:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3824/15423 [3:17:51<10:00:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  25%|▏| 3824/15423 [3:17:51<10:00:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3825/15423 [3:17:52<9:59:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3825/15423 [3:17:52<9:59:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3826/15423 [3:17:55<9:59:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3826/15423 [3:17:55<9:59:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3827/15423 [3:17:57<9:59:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3827/15423 [3:17:57<9:59:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3828/15423 [3:18:00<9:59:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3828/15423 [3:18:00<9:59:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3829/15423 [3:18:03<9:59:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3829/15423 [3:18:03<9:59:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3830/15423 [3:18:07<9:59:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3830/15423 [3:18:07<9:59:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3831/15423 [3:18:07<9:59:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3831/15423 [3:18:07<9:59:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3832/15423 [3:18:10<9:59:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3832/15423 [3:18:10<9:59:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3833/15423 [3:18:14<9:59:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3833/15423 [3:18:14<9:59:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3834/15423 [3:18:15<9:59:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3834/15423 [3:18:15<9:59:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3835/15423 [3:18:19<9:59:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3835/15423 [3:18:19<9:59:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3836/15423 [3:18:24<9:59:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3836/15423 [3:18:24<9:59:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3837/15423 [3:18:24<9:59:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3837/15423 [3:18:24<9:59:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3838/15423 [3:18:28<9:59:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3838/15423 [3:18:28<9:59:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3839/15423 [3:18:32<9:59:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3839/15423 [3:18:32<9:59:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3840/15423 [3:18:48<9:59:39,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3840/15423 [3:18:48<9:59:39,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3841/15423 [3:18:52<9:59:40,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3841/15423 [3:18:52<9:59:40,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3842/15423 [3:18:53<9:59:31,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3842/15423 [3:18:53<9:59:31,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3843/15423 [3:18:57<9:59:30,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3843/15423 [3:18:57<9:59:30,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3844/15423 [3:19:00<9:59:26,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3844/15423 [3:19:00<9:59:26,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3845/15423 [3:19:02<9:59:20,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3845/15423 [3:19:02<9:59:20,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3846/15423 [3:19:05<9:59:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3846/15423 [3:19:05<9:59:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3847/15423 [3:19:06<9:59:09,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3847/15423 [3:19:06<9:59:09,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3848/15423 [3:19:08<9:59:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3848/15423 [3:19:08<9:59:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3849/15423 [3:19:10<9:58:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3849/15423 [3:19:10<9:58:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3850/15423 [3:19:13<9:58:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3850/15423 [3:19:13<9:58:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3851/15423 [3:19:15<9:58:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3851/15423 [3:19:15<9:58:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3852/15423 [3:19:17<9:58:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3852/15423 [3:19:17<9:58:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3853/15423 [3:19:19<9:58:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3853/15423 [3:19:19<9:58:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3854/15423 [3:19:22<9:58:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3854/15423 [3:19:22<9:58:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▏| 3855/15423 [3:19:27<9:58:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▏| 3855/15423 [3:19:27<9:58:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3856/15423 [3:19:28<9:58:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3856/15423 [3:19:28<9:58:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3857/15423 [3:19:31<9:58:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3857/15423 [3:19:31<9:58:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3858/15423 [3:19:34<9:58:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3858/15423 [3:19:34<9:58:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3859/15423 [3:19:39<9:58:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3859/15423 [3:19:39<9:58:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3860/15423 [3:19:41<9:58:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3860/15423 [3:19:41<9:58:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3861/15423 [3:19:44<9:58:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3861/15423 [3:19:44<9:58:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3862/15423 [3:19:45<9:58:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3862/15423 [3:19:45<9:58:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3863/15423 [3:19:48<9:57:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3863/15423 [3:19:48<9:57:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3864/15423 [3:19:50<9:57:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3864/15423 [3:19:50<9:57:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3865/15423 [3:19:51<9:57:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3865/15423 [3:19:51<9:57:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3866/15423 [3:19:52<9:57:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3866/15423 [3:19:52<9:57:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3867/15423 [3:19:54<9:57:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3867/15423 [3:19:54<9:57:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3868/15423 [3:19:57<9:57:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3868/15423 [3:19:57<9:57:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3869/15423 [3:20:01<9:57:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3869/15423 [3:20:01<9:57:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3870/15423 [3:20:03<9:57:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3870/15423 [3:20:03<9:57:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3871/15423 [3:20:06<9:57:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3871/15423 [3:20:06<9:57:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3872/15423 [3:20:22<9:57:46,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3872/15423 [3:20:22<9:57:46,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3873/15423 [3:20:23<9:57:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3873/15423 [3:20:23<9:57:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3874/15423 [3:20:24<9:57:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3874/15423 [3:20:24<9:57:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3875/15423 [3:20:25<9:57:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3875/15423 [3:20:25<9:57:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3876/15423 [3:20:27<9:57:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3876/15423 [3:20:27<9:57:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3877/15423 [3:20:29<9:57:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3877/15423 [3:20:29<9:57:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3878/15423 [3:20:33<9:57:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3878/15423 [3:20:33<9:57:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3879/15423 [3:20:35<9:56:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3879/15423 [3:20:35<9:56:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3880/15423 [3:20:38<9:56:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3880/15423 [3:20:38<9:56:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3881/15423 [3:20:40<9:56:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3881/15423 [3:20:40<9:56:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3882/15423 [3:20:42<9:56:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3882/15423 [3:20:42<9:56:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3883/15423 [3:20:44<9:56:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3883/15423 [3:20:44<9:56:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3884/15423 [3:20:45<9:56:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3884/15423 [3:20:45<9:56:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3885/15423 [3:20:49<9:56:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3885/15423 [3:20:49<9:56:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3886/15423 [3:20:53<9:56:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3886/15423 [3:20:53<9:56:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3887/15423 [3:20:56<9:56:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3887/15423 [3:20:56<9:56:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3888/15423 [3:20:58<9:56:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3888/15423 [3:20:58<9:56:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3889/15423 [3:21:00<9:56:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3889/15423 [3:21:00<9:56:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3890/15423 [3:21:04<9:56:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3890/15423 [3:21:04<9:56:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3891/15423 [3:21:06<9:56:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3891/15423 [3:21:06<9:56:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3892/15423 [3:21:07<9:55:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3892/15423 [3:21:07<9:55:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3893/15423 [3:21:08<9:55:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3893/15423 [3:21:08<9:55:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3894/15423 [3:21:09<9:55:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3894/15423 [3:21:09<9:55:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3895/15423 [3:21:13<9:55:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3895/15423 [3:21:13<9:55:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3896/15423 [3:21:14<9:55:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3896/15423 [3:21:14<9:55:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3897/15423 [3:21:15<9:55:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3897/15423 [3:21:15<9:55:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3898/15423 [3:21:16<9:55:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3898/15423 [3:21:16<9:55:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3899/15423 [3:21:18<9:55:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3899/15423 [3:21:18<9:55:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3900/15423 [3:21:22<9:54:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3900/15423 [3:21:22<9:54:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3901/15423 [3:21:24<9:54:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3901/15423 [3:21:24<9:54:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3902/15423 [3:21:26<9:54:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3902/15423 [3:21:26<9:54:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3903/15423 [3:21:29<9:54:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3903/15423 [3:21:29<9:54:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3904/15423 [3:22:04<9:56:13,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3904/15423 [3:22:04<9:56:13,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3905/15423 [3:22:06<9:56:06,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3905/15423 [3:22:06<9:56:06,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3906/15423 [3:22:06<9:55:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3906/15423 [3:22:06<9:55:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3907/15423 [3:22:09<9:55:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3907/15423 [3:22:09<9:55:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3908/15423 [3:22:10<9:55:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3908/15423 [3:22:10<9:55:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3909/15423 [3:22:11<9:55:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3909/15423 [3:22:11<9:55:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3910/15423 [3:22:13<9:55:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3910/15423 [3:22:13<9:55:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3911/15423 [3:22:15<9:55:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3911/15423 [3:22:15<9:55:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3912/15423 [3:22:16<9:55:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3912/15423 [3:22:16<9:55:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3913/15423 [3:22:19<9:55:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3913/15423 [3:22:19<9:55:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3914/15423 [3:22:20<9:54:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3914/15423 [3:22:20<9:54:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3915/15423 [3:22:21<9:54:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3915/15423 [3:22:21<9:54:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3916/15423 [3:22:23<9:54:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3916/15423 [3:22:23<9:54:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3917/15423 [3:22:25<9:54:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3917/15423 [3:22:25<9:54:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3918/15423 [3:22:26<9:54:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3918/15423 [3:22:26<9:54:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3919/15423 [3:22:27<9:54:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3919/15423 [3:22:27<9:54:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3920/15423 [3:22:29<9:54:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3920/15423 [3:22:29<9:54:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3921/15423 [3:22:31<9:54:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3921/15423 [3:22:31<9:54:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3922/15423 [3:22:35<9:54:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3922/15423 [3:22:35<9:54:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3923/15423 [3:22:39<9:54:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3923/15423 [3:22:39<9:54:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3924/15423 [3:22:44<9:54:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3924/15423 [3:22:44<9:54:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3925/15423 [3:22:46<9:54:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3925/15423 [3:22:46<9:54:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3926/15423 [3:22:48<9:53:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3926/15423 [3:22:48<9:53:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3927/15423 [3:22:50<9:53:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3927/15423 [3:22:50<9:53:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3928/15423 [3:22:54<9:53:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3928/15423 [3:22:54<9:53:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3929/15423 [3:22:57<9:53:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3929/15423 [3:22:57<9:53:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3930/15423 [3:22:57<9:53:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3930/15423 [3:22:57<9:53:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3931/15423 [3:23:02<9:53:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3931/15423 [3:23:02<9:53:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  25%|▎| 3932/15423 [3:23:05<9:53:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  25%|▎| 3932/15423 [3:23:05<9:53:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3933/15423 [3:23:06<9:53:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3933/15423 [3:23:06<9:53:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3934/15423 [3:23:09<9:53:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3934/15423 [3:23:09<9:53:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3935/15423 [3:23:11<9:53:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3935/15423 [3:23:11<9:53:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3936/15423 [3:23:41<9:54:28,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3936/15423 [3:23:41<9:54:28,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3937/15423 [3:23:42<9:54:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3937/15423 [3:23:42<9:54:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3938/15423 [3:23:44<9:54:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3938/15423 [3:23:44<9:54:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3939/15423 [3:23:47<9:54:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3939/15423 [3:23:47<9:54:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3940/15423 [3:23:48<9:53:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3940/15423 [3:23:48<9:53:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3941/15423 [3:23:49<9:53:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3941/15423 [3:23:49<9:53:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3942/15423 [3:23:51<9:53:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3942/15423 [3:23:51<9:53:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3943/15423 [3:23:51<9:53:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3943/15423 [3:23:51<9:53:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3944/15423 [3:23:55<9:53:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3944/15423 [3:23:55<9:53:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3945/15423 [3:23:58<9:53:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3945/15423 [3:23:58<9:53:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3946/15423 [3:24:02<9:53:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3946/15423 [3:24:02<9:53:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3947/15423 [3:24:04<9:53:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3947/15423 [3:24:04<9:53:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3948/15423 [3:24:08<9:53:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3948/15423 [3:24:08<9:53:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3949/15423 [3:24:12<9:53:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3949/15423 [3:24:12<9:53:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3950/15423 [3:24:16<9:53:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3950/15423 [3:24:16<9:53:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3951/15423 [3:24:20<9:53:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3951/15423 [3:24:20<9:53:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3952/15423 [3:24:21<9:53:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3952/15423 [3:24:21<9:53:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3953/15423 [3:24:23<9:53:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3953/15423 [3:24:23<9:53:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3954/15423 [3:24:27<9:53:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3954/15423 [3:24:27<9:53:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3955/15423 [3:24:29<9:52:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3955/15423 [3:24:29<9:52:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3956/15423 [3:24:32<9:52:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3956/15423 [3:24:32<9:52:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3957/15423 [3:24:34<9:52:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3957/15423 [3:24:34<9:52:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3958/15423 [3:24:36<9:52:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3958/15423 [3:24:36<9:52:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3959/15423 [3:24:40<9:52:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3959/15423 [3:24:40<9:52:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3960/15423 [3:24:41<9:52:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3960/15423 [3:24:41<9:52:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3961/15423 [3:24:43<9:52:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3961/15423 [3:24:43<9:52:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3962/15423 [3:24:44<9:52:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3962/15423 [3:24:44<9:52:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3963/15423 [3:24:48<9:52:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3963/15423 [3:24:48<9:52:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3964/15423 [3:24:50<9:52:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3964/15423 [3:24:50<9:52:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3965/15423 [3:24:52<9:52:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3965/15423 [3:24:52<9:52:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3966/15423 [3:24:54<9:51:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3966/15423 [3:24:54<9:51:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3967/15423 [3:24:56<9:51:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3967/15423 [3:24:56<9:51:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3968/15423 [3:25:20<9:52:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3968/15423 [3:25:20<9:52:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3969/15423 [3:25:21<9:52:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3969/15423 [3:25:21<9:52:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3970/15423 [3:25:25<9:52:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3970/15423 [3:25:25<9:52:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3971/15423 [3:25:29<9:52:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3971/15423 [3:25:29<9:52:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3972/15423 [3:25:32<9:52:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3972/15423 [3:25:32<9:52:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3973/15423 [3:25:34<9:52:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3973/15423 [3:25:34<9:52:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3974/15423 [3:25:36<9:52:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3974/15423 [3:25:36<9:52:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3975/15423 [3:25:40<9:52:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3975/15423 [3:25:40<9:52:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3976/15423 [3:25:41<9:52:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3976/15423 [3:25:41<9:52:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3977/15423 [3:25:42<9:52:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3977/15423 [3:25:42<9:52:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3978/15423 [3:25:45<9:51:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3978/15423 [3:25:45<9:51:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3979/15423 [3:25:47<9:51:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3979/15423 [3:25:47<9:51:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3980/15423 [3:25:51<9:51:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3980/15423 [3:25:51<9:51:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3981/15423 [3:25:55<9:51:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3981/15423 [3:25:55<9:51:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3982/15423 [3:25:57<9:51:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3982/15423 [3:25:57<9:51:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3983/15423 [3:26:01<9:51:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3983/15423 [3:26:01<9:51:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3984/15423 [3:26:03<9:51:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3984/15423 [3:26:03<9:51:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3985/15423 [3:26:05<9:51:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3985/15423 [3:26:05<9:51:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3986/15423 [3:26:06<9:51:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3986/15423 [3:26:06<9:51:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3987/15423 [3:26:10<9:51:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3987/15423 [3:26:10<9:51:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3988/15423 [3:26:11<9:51:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3988/15423 [3:26:11<9:51:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3989/15423 [3:26:14<9:51:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3989/15423 [3:26:14<9:51:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3990/15423 [3:26:16<9:51:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3990/15423 [3:26:16<9:51:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3991/15423 [3:26:21<9:51:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3991/15423 [3:26:21<9:51:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3992/15423 [3:26:23<9:51:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3992/15423 [3:26:23<9:51:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3993/15423 [3:26:26<9:50:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3993/15423 [3:26:26<9:50:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3994/15423 [3:26:30<9:50:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3994/15423 [3:26:30<9:50:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3995/15423 [3:26:33<9:50:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3995/15423 [3:26:33<9:50:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3996/15423 [3:26:34<9:50:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3996/15423 [3:26:34<9:50:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3997/15423 [3:26:37<9:50:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3997/15423 [3:26:37<9:50:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3998/15423 [3:26:38<9:50:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3998/15423 [3:26:38<9:50:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 3999/15423 [3:26:42<9:50:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 3999/15423 [3:26:42<9:50:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4000/15423 [3:26:57<9:51:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4000/15423 [3:26:57<9:51:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4001/15423 [3:27:21<9:51:57,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4001/15423 [3:27:21<9:51:57,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4002/15423 [3:27:22<9:51:48,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4002/15423 [3:27:22<9:51:48,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4003/15423 [3:27:23<9:51:40,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4003/15423 [3:27:23<9:51:40,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4004/15423 [3:27:28<9:51:40,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4004/15423 [3:27:28<9:51:40,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4005/15423 [3:27:29<9:51:33,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4005/15423 [3:27:29<9:51:33,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4006/15423 [3:27:32<9:51:29,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4006/15423 [3:27:32<9:51:29,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4007/15423 [3:27:37<9:51:30,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4007/15423 [3:27:37<9:51:30,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4008/15423 [3:27:39<9:51:24,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4008/15423 [3:27:39<9:51:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4009/15423 [3:27:40<9:51:15,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4009/15423 [3:27:40<9:51:15,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4010/15423 [3:27:42<9:51:09,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4010/15423 [3:27:42<9:51:09,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4011/15423 [3:27:46<9:51:10,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4011/15423 [3:27:46<9:51:10,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4012/15423 [3:27:51<9:51:10,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4012/15423 [3:27:51<9:51:10,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4013/15423 [3:27:55<9:51:10,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4013/15423 [3:27:55<9:51:10,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4014/15423 [3:27:56<9:51:03,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4014/15423 [3:27:56<9:51:03,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4015/15423 [3:27:57<9:50:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4015/15423 [3:27:57<9:50:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4016/15423 [3:28:01<9:50:52,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4016/15423 [3:28:01<9:50:52,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4017/15423 [3:28:02<9:50:42,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4017/15423 [3:28:02<9:50:42,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4018/15423 [3:28:04<9:50:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4018/15423 [3:28:04<9:50:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4019/15423 [3:28:06<9:50:31,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4019/15423 [3:28:06<9:50:31,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4020/15423 [3:28:07<9:50:22,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4020/15423 [3:28:07<9:50:22,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4021/15423 [3:28:11<9:50:20,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4021/15423 [3:28:11<9:50:20,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4022/15423 [3:28:15<9:50:19,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4022/15423 [3:28:15<9:50:19,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4023/15423 [3:28:18<9:50:16,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4023/15423 [3:28:18<9:50:16,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4024/15423 [3:28:21<9:50:12,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4024/15423 [3:28:21<9:50:12,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4025/15423 [3:28:23<9:50:07,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4025/15423 [3:28:23<9:50:07,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4026/15423 [3:28:27<9:50:06,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4026/15423 [3:28:27<9:50:06,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4027/15423 [3:28:31<9:50:06,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4027/15423 [3:28:31<9:50:06,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4028/15423 [3:28:35<9:50:07,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4028/15423 [3:28:36<9:50:07,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4029/15423 [3:28:38<9:50:01,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4029/15423 [3:28:38<9:50:01,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4030/15423 [3:28:42<9:50:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4030/15423 [3:28:42<9:50:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4031/15423 [3:28:43<9:49:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4031/15423 [3:28:43<9:49:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4032/15423 [3:28:55<9:50:15,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4032/15423 [3:28:55<9:50:15,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4033/15423 [3:28:58<9:50:11,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4033/15423 [3:28:58<9:50:11,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4034/15423 [3:29:00<9:50:04,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4034/15423 [3:29:00<9:50:04,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4035/15423 [3:29:04<9:50:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4035/15423 [3:29:04<9:50:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4036/15423 [3:29:09<9:50:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4036/15423 [3:29:09<9:50:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4037/15423 [3:29:13<9:50:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4037/15423 [3:29:13<9:50:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4038/15423 [3:29:16<9:50:03,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4038/15423 [3:29:16<9:50:03,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4039/15423 [3:29:19<9:50:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4039/15423 [3:29:19<9:50:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4040/15423 [3:29:20<9:49:50,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4040/15423 [3:29:20<9:49:50,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|���| 4041/15423 [3:29:24<9:49:49,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4041/15423 [3:29:24<9:49:49,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4042/15423 [3:29:26<9:49:43,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4042/15423 [3:29:26<9:49:43,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4043/15423 [3:29:27<9:49:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4043/15423 [3:29:27<9:49:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4044/15423 [3:29:29<9:49:28,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4044/15423 [3:29:29<9:49:28,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4045/15423 [3:29:31<9:49:21,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4045/15423 [3:29:31<9:49:21,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4046/15423 [3:29:35<9:49:21,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4046/15423 [3:29:35<9:49:21,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4047/15423 [3:29:39<9:49:22,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4047/15423 [3:29:39<9:49:22,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4048/15423 [3:29:42<9:49:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4048/15423 [3:29:42<9:49:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4049/15423 [3:29:46<9:49:16,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4049/15423 [3:29:46<9:49:16,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4050/15423 [3:29:50<9:49:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4050/15423 [3:29:50<9:49:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4051/15423 [3:29:52<9:49:08,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4051/15423 [3:29:52<9:49:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4052/15423 [3:29:54<9:49:03,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4052/15423 [3:29:54<9:49:03,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4053/15423 [3:29:56<9:48:56,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4053/15423 [3:29:56<9:48:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4054/15423 [3:29:59<9:48:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4054/15423 [3:29:59<9:48:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4055/15423 [3:30:01<9:48:48,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4055/15423 [3:30:01<9:48:48,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4056/15423 [3:30:02<9:48:40,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4056/15423 [3:30:02<9:48:40,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4057/15423 [3:30:05<9:48:34,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4057/15423 [3:30:05<9:48:34,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4058/15423 [3:30:05<9:48:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4058/15423 [3:30:05<9:48:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4059/15423 [3:30:07<9:48:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4059/15423 [3:30:07<9:48:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4060/15423 [3:30:08<9:48:09,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4060/15423 [3:30:08<9:48:09,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4061/15423 [3:30:12<9:48:07,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4061/15423 [3:30:12<9:48:07,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4062/15423 [3:30:16<9:48:07,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4062/15423 [3:30:16<9:48:07,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4063/15423 [3:30:18<9:48:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4063/15423 [3:30:18<9:48:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4064/15423 [3:30:34<9:48:34,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4064/15423 [3:30:34<9:48:34,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4065/15423 [3:30:36<9:48:26,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4065/15423 [3:30:36<9:48:26,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4066/15423 [3:30:37<9:48:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4066/15423 [3:30:37<9:48:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4067/15423 [3:30:40<9:48:15,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4067/15423 [3:30:40<9:48:15,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4068/15423 [3:30:42<9:48:08,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4068/15423 [3:30:42<9:48:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4069/15423 [3:30:46<9:48:08,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4069/15423 [3:30:46<9:48:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4070/15423 [3:30:47<9:47:59,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4070/15423 [3:30:47<9:47:59,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4071/15423 [3:30:50<9:47:55,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4071/15423 [3:30:50<9:47:55,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4072/15423 [3:30:50<9:47:45,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4072/15423 [3:30:50<9:47:45,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4073/15423 [3:30:55<9:47:45,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4073/15423 [3:30:55<9:47:45,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4074/15423 [3:30:58<9:47:43,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4074/15423 [3:30:58<9:47:43,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4075/15423 [3:30:59<9:47:34,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4075/15423 [3:30:59<9:47:34,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4076/15423 [3:31:04<9:47:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4076/15423 [3:31:04<9:47:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4077/15423 [3:31:07<9:47:32,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4077/15423 [3:31:07<9:47:32,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4078/15423 [3:31:08<9:47:24,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4078/15423 [3:31:08<9:47:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4079/15423 [3:31:13<9:47:24,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4079/15423 [3:31:13<9:47:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4080/15423 [3:31:15<9:47:19,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4080/15423 [3:31:15<9:47:19,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4081/15423 [3:31:19<9:47:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4081/15423 [3:31:19<9:47:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4082/15423 [3:31:23<9:47:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4082/15423 [3:31:23<9:47:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4083/15423 [3:31:25<9:47:11,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4083/15423 [3:31:25<9:47:11,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4084/15423 [3:31:27<9:47:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4084/15423 [3:31:27<9:47:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4085/15423 [3:31:27<9:46:55,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4085/15423 [3:31:27<9:46:55,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4086/15423 [3:31:29<9:46:48,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4086/15423 [3:31:29<9:46:48,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  26%|▎| 4087/15423 [3:31:33<9:46:47,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  26%|▎| 4087/15423 [3:31:33<9:46:47,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4088/15423 [3:31:34<9:46:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4088/15423 [3:31:34<9:46:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4089/15423 [3:31:38<9:46:37,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4089/15423 [3:31:38<9:46:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4090/15423 [3:31:40<9:46:32,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4090/15423 [3:31:40<9:46:32,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4091/15423 [3:31:42<9:46:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4091/15423 [3:31:42<9:46:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4092/15423 [3:31:45<9:46:23,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4092/15423 [3:31:45<9:46:23,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4093/15423 [3:31:47<9:46:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4093/15423 [3:31:47<9:46:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4094/15423 [3:31:49<9:46:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4094/15423 [3:31:49<9:46:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4095/15423 [3:31:51<9:46:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4095/15423 [3:31:51<9:46:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4096/15423 [3:32:16<9:47:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4096/15423 [3:32:16<9:47:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4097/15423 [3:32:20<9:46:59,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4097/15423 [3:32:20<9:46:59,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4098/15423 [3:32:23<9:46:57,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4098/15423 [3:32:23<9:46:57,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4099/15423 [3:32:27<9:46:57,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4099/15423 [3:32:27<9:46:57,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4100/15423 [3:32:30<9:46:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4100/15423 [3:32:30<9:46:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4101/15423 [3:32:31<9:46:45,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4101/15423 [3:32:31<9:46:45,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4102/15423 [3:32:36<9:46:45,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4102/15423 [3:32:36<9:46:45,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4103/15423 [3:32:39<9:46:43,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4103/15423 [3:32:39<9:46:43,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4104/15423 [3:32:40<9:46:34,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4104/15423 [3:32:40<9:46:34,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4105/15423 [3:32:43<9:46:29,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4105/15423 [3:32:43<9:46:29,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4106/15423 [3:32:46<9:46:26,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4106/15423 [3:32:46<9:46:26,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4107/15423 [3:32:47<9:46:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4107/15423 [3:32:47<9:46:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4108/15423 [3:32:51<9:46:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4108/15423 [3:32:51<9:46:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4109/15423 [3:32:52<9:46:07,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4109/15423 [3:32:52<9:46:07,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4110/15423 [3:32:53<9:45:59,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4110/15423 [3:32:53<9:45:59,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4111/15423 [3:32:54<9:45:50,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4111/15423 [3:32:54<9:45:50,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4112/15423 [3:32:56<9:45:45,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4112/15423 [3:32:56<9:45:45,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4113/15423 [3:33:00<9:45:44,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4113/15423 [3:33:00<9:45:44,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4114/15423 [3:33:04<9:45:43,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4114/15423 [3:33:04<9:45:43,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4115/15423 [3:33:06<9:45:37,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4115/15423 [3:33:06<9:45:37,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4116/15423 [3:33:07<9:45:28,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4116/15423 [3:33:07<9:45:28,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4117/15423 [3:33:08<9:45:20,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4117/15423 [3:33:08<9:45:20,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4118/15423 [3:33:11<9:45:16,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4118/15423 [3:33:11<9:45:16,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4119/15423 [3:33:15<9:45:15,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4119/15423 [3:33:15<9:45:15,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4120/15423 [3:33:17<9:45:08,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4120/15423 [3:33:17<9:45:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4121/15423 [3:33:21<9:45:08,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4121/15423 [3:33:21<9:45:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4122/15423 [3:33:23<9:45:02,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4122/15423 [3:33:23<9:45:02,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4123/15423 [3:33:26<9:44:59,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4123/15423 [3:33:26<9:44:59,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4124/15423 [3:33:30<9:44:57,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4124/15423 [3:33:30<9:44:57,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4125/15423 [3:33:33<9:44:54,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4125/15423 [3:33:33<9:44:54,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4126/15423 [3:33:36<9:44:52,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4126/15423 [3:33:36<9:44:52,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4127/15423 [3:33:40<9:44:51,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4127/15423 [3:33:40<9:44:51,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4128/15423 [3:33:54<9:45:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4128/15423 [3:33:54<9:45:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4129/15423 [3:33:58<9:45:16,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4129/15423 [3:33:58<9:45:16,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4130/15423 [3:33:59<9:45:08,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4130/15423 [3:33:59<9:45:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4131/15423 [3:34:01<9:45:01,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4131/15423 [3:34:01<9:45:01,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4132/15423 [3:34:04<9:44:57,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4132/15423 [3:34:04<9:44:57,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4133/15423 [3:34:07<9:44:56,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4133/15423 [3:34:07<9:44:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4134/15423 [3:34:08<9:44:46,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4134/15423 [3:34:08<9:44:46,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4135/15423 [3:34:11<9:44:42,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4135/15423 [3:34:11<9:44:42,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4136/15423 [3:34:14<9:44:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4136/15423 [3:34:14<9:44:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4137/15423 [3:34:16<9:44:34,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4137/15423 [3:34:16<9:44:34,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4138/15423 [3:34:19<9:44:30,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4138/15423 [3:34:19<9:44:30,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4139/15423 [3:34:22<9:44:26,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4139/15423 [3:34:22<9:44:26,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4140/15423 [3:34:24<9:44:21,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4140/15423 [3:34:24<9:44:21,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4141/15423 [3:34:28<9:44:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4141/15423 [3:34:28<9:44:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4142/15423 [3:34:29<9:44:10,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4142/15423 [3:34:29<9:44:10,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4143/15423 [3:34:31<9:44:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4143/15423 [3:34:31<9:44:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4144/15423 [3:34:33<9:43:58,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4144/15423 [3:34:33<9:43:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4145/15423 [3:34:36<9:43:54,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4145/15423 [3:34:36<9:43:54,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4146/15423 [3:34:38<9:43:48,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4146/15423 [3:34:38<9:43:48,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4147/15423 [3:34:40<9:43:42,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4147/15423 [3:34:40<9:43:42,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4148/15423 [3:34:41<9:43:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4148/15423 [3:34:41<9:43:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4149/15423 [3:34:45<9:43:32,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4149/15423 [3:34:45<9:43:32,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4150/15423 [3:34:46<9:43:24,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4150/15423 [3:34:46<9:43:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4151/15423 [3:34:48<9:43:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4151/15423 [3:34:48<9:43:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4152/15423 [3:34:52<9:43:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4152/15423 [3:34:52<9:43:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4153/15423 [3:34:54<9:43:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4153/15423 [3:34:54<9:43:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4154/15423 [3:34:56<9:43:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4154/15423 [3:34:56<9:43:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4155/15423 [3:35:01<9:43:07,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4155/15423 [3:35:01<9:43:07,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4156/15423 [3:35:04<9:43:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4156/15423 [3:35:04<9:43:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4157/15423 [3:35:08<9:43:04,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4157/15423 [3:35:08<9:43:04,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4158/15423 [3:35:10<9:42:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4158/15423 [3:35:10<9:42:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4159/15423 [3:35:12<9:42:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4159/15423 [3:35:12<9:42:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4160/15423 [3:35:30<9:43:27,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4160/15423 [3:35:30<9:43:27,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4161/15423 [3:35:32<9:43:22,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4161/15423 [3:35:32<9:43:22,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4162/15423 [3:35:36<9:43:22,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4162/15423 [3:35:36<9:43:22,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4163/15423 [3:35:39<9:43:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4163/15423 [3:35:39<9:43:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4164/15423 [3:35:43<9:43:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4164/15423 [3:35:43<9:43:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4165/15423 [3:35:47<9:43:16,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4165/15423 [3:35:47<9:43:16,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4166/15423 [3:35:48<9:43:09,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4166/15423 [3:35:48<9:43:09,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4167/15423 [3:35:50<9:43:02,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4167/15423 [3:35:50<9:43:02,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4168/15423 [3:35:53<9:42:58,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4168/15423 [3:35:53<9:42:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4169/15423 [3:35:56<9:42:55,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4169/15423 [3:35:56<9:42:55,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4170/15423 [3:35:58<9:42:49,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4170/15423 [3:35:58<9:42:49,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4171/15423 [3:35:59<9:42:40,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4171/15423 [3:35:59<9:42:40,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4172/15423 [3:36:00<9:42:30,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4172/15423 [3:36:00<9:42:30,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4173/15423 [3:36:01<9:42:23,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4173/15423 [3:36:01<9:42:23,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4174/15423 [3:36:04<9:42:19,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4174/15423 [3:36:04<9:42:19,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4175/15423 [3:36:08<9:42:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4175/15423 [3:36:08<9:42:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4176/15423 [3:36:12<9:42:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4176/15423 [3:36:12<9:42:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4177/15423 [3:36:14<9:42:12,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4177/15423 [3:36:14<9:42:12,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4178/15423 [3:36:17<9:42:08,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4178/15423 [3:36:17<9:42:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4179/15423 [3:36:19<9:42:01,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4179/15423 [3:36:19<9:42:01,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4180/15423 [3:36:22<9:41:59,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4180/15423 [3:36:22<9:41:59,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4181/15423 [3:36:25<9:41:56,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4181/15423 [3:36:25<9:41:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4182/15423 [3:36:30<9:41:56,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4182/15423 [3:36:30<9:41:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4183/15423 [3:36:32<9:41:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4183/15423 [3:36:32<9:41:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4184/15423 [3:36:37<9:41:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4184/15423 [3:36:37<9:41:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4185/15423 [3:36:41<9:41:52,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4185/15423 [3:36:41<9:41:52,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4186/15423 [3:36:45<9:41:52,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4186/15423 [3:36:45<9:41:52,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4187/15423 [3:36:47<9:41:47,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4187/15423 [3:36:47<9:41:47,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4188/15423 [3:36:51<9:41:44,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4188/15423 [3:36:51<9:41:44,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4189/15423 [3:36:55<9:41:44,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4189/15423 [3:36:55<9:41:44,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4190/15423 [3:36:59<9:41:44,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4190/15423 [3:36:59<9:41:44,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4191/15423 [3:37:02<9:41:39,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4191/15423 [3:37:02<9:41:39,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4192/15423 [3:37:10<9:41:51,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4192/15423 [3:37:10<9:41:51,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4193/15423 [3:37:14<9:41:51,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4193/15423 [3:37:14<9:41:51,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4194/15423 [3:37:17<9:41:47,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4194/15423 [3:37:17<9:41:47,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4195/15423 [3:37:19<9:41:41,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4195/15423 [3:37:19<9:41:41,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4196/15423 [3:37:20<9:41:32,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4196/15423 [3:37:20<9:41:32,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4197/15423 [3:37:22<9:41:26,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4197/15423 [3:37:22<9:41:26,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4198/15423 [3:37:26<9:41:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4198/15423 [3:37:26<9:41:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4199/15423 [3:37:28<9:41:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4199/15423 [3:37:28<9:41:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4200/15423 [3:37:29<9:41:09,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4200/15423 [3:37:29<9:41:09,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4201/15423 [3:37:30<9:41:01,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4201/15423 [3:37:30<9:41:01,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4202/15423 [3:37:34<9:41:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4202/15423 [3:37:34<9:41:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4203/15423 [3:37:36<9:40:55,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4203/15423 [3:37:36<9:40:55,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4204/15423 [3:37:39<9:40:51,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4204/15423 [3:37:39<9:40:51,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4205/15423 [3:37:42<9:40:48,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4205/15423 [3:37:42<9:40:48,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4206/15423 [3:37:46<9:40:46,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4206/15423 [3:37:46<9:40:46,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4207/15423 [3:37:49<9:40:43,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4207/15423 [3:37:49<9:40:43,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4208/15423 [3:37:50<9:40:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4208/15423 [3:37:50<9:40:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4209/15423 [3:37:54<9:40:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4209/15423 [3:37:54<9:40:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4210/15423 [3:37:58<9:40:33,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4210/15423 [3:37:58<9:40:33,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4211/15423 [3:38:01<9:40:29,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4211/15423 [3:38:01<9:40:29,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4212/15423 [3:38:01<9:40:19,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4212/15423 [3:38:01<9:40:19,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4213/15423 [3:38:06<9:40:19,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4213/15423 [3:38:06<9:40:19,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4214/15423 [3:38:08<9:40:14,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4214/15423 [3:38:08<9:40:14,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4215/15423 [3:38:10<9:40:09,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4215/15423 [3:38:10<9:40:09,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4216/15423 [3:38:12<9:40:02,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4216/15423 [3:38:12<9:40:02,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4217/15423 [3:38:13<9:39:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4217/15423 [3:38:13<9:39:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4218/15423 [3:38:17<9:39:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4218/15423 [3:38:17<9:39:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4219/15423 [3:38:21<9:39:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4219/15423 [3:38:21<9:39:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4220/15423 [3:38:24<9:39:49,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4220/15423 [3:38:24<9:39:49,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4221/15423 [3:38:26<9:39:42,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4221/15423 [3:38:26<9:39:42,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4222/15423 [3:38:29<9:39:40,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4222/15423 [3:38:29<9:39:40,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4223/15423 [3:38:30<9:39:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4223/15423 [3:38:30<9:39:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4224/15423 [3:38:45<9:40:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4224/15423 [3:38:45<9:40:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4225/15423 [3:38:47<9:39:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4225/15423 [3:38:47<9:39:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4226/15423 [3:38:49<9:39:46,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4226/15423 [3:38:49<9:39:46,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4227/15423 [3:38:52<9:39:42,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4227/15423 [3:38:52<9:39:42,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4228/15423 [3:38:54<9:39:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4228/15423 [3:38:54<9:39:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4229/15423 [3:38:56<9:39:31,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4229/15423 [3:38:56<9:39:31,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4230/15423 [3:38:59<9:39:29,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4230/15423 [3:38:59<9:39:29,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4231/15423 [3:39:02<9:39:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4231/15423 [3:39:02<9:39:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4232/15423 [3:39:06<9:39:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4232/15423 [3:39:06<9:39:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4233/15423 [3:39:10<9:39:23,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4233/15423 [3:39:10<9:39:23,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4234/15423 [3:39:12<9:39:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4234/15423 [3:39:12<9:39:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4235/15423 [3:39:14<9:39:11,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4235/15423 [3:39:14<9:39:11,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4236/15423 [3:39:15<9:39:03,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4236/15423 [3:39:15<9:39:03,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4237/15423 [3:39:18<9:38:58,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4237/15423 [3:39:18<9:38:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4238/15423 [3:39:22<9:38:58,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4238/15423 [3:39:22<9:38:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4239/15423 [3:39:24<9:38:52,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4239/15423 [3:39:24<9:38:52,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4240/15423 [3:39:28<9:38:52,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4240/15423 [3:39:28<9:38:52,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  27%|▎| 4241/15423 [3:39:33<9:38:52,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  27%|▎| 4241/15423 [3:39:33<9:38:52,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4242/15423 [3:39:37<9:38:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4242/15423 [3:39:37<9:38:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4243/15423 [3:39:40<9:38:48,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4243/15423 [3:39:40<9:38:48,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4244/15423 [3:39:40<9:38:39,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4244/15423 [3:39:40<9:38:39,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4245/15423 [3:39:43<9:38:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4245/15423 [3:39:43<9:38:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4246/15423 [3:39:46<9:38:31,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4246/15423 [3:39:46<9:38:31,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4247/15423 [3:39:50<9:38:30,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4247/15423 [3:39:50<9:38:30,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4248/15423 [3:39:54<9:38:30,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4248/15423 [3:39:54<9:38:30,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4249/15423 [3:39:55<9:38:22,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4249/15423 [3:39:55<9:38:22,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4250/15423 [3:40:00<9:38:22,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4250/15423 [3:40:00<9:38:22,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4251/15423 [3:40:00<9:38:12,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4251/15423 [3:40:00<9:38:12,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4252/15423 [3:40:02<9:38:06,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4252/15423 [3:40:02<9:38:06,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4253/15423 [3:40:05<9:38:03,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4253/15423 [3:40:05<9:38:03,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4254/15423 [3:40:09<9:38:02,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4254/15423 [3:40:09<9:38:02,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4255/15423 [3:40:11<9:37:56,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4255/15423 [3:40:11<9:37:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4256/15423 [3:40:23<9:38:16,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4256/15423 [3:40:23<9:38:16,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4257/15423 [3:40:24<9:38:06,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4257/15423 [3:40:24<9:38:06,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4258/15423 [3:40:25<9:38:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4258/15423 [3:40:25<9:38:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4259/15423 [3:40:28<9:37:54,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4259/15423 [3:40:28<9:37:54,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4260/15423 [3:40:32<9:37:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4260/15423 [3:40:32<9:37:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4261/15423 [3:40:34<9:37:49,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4261/15423 [3:40:34<9:37:49,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4262/15423 [3:40:36<9:37:42,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4262/15423 [3:40:36<9:37:42,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4263/15423 [3:40:37<9:37:33,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4263/15423 [3:40:37<9:37:33,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4264/15423 [3:40:39<9:37:29,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4264/15423 [3:40:39<9:37:29,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4265/15423 [3:40:43<9:37:26,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4265/15423 [3:40:43<9:37:26,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4266/15423 [3:40:45<9:37:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4266/15423 [3:40:45<9:37:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4267/15423 [3:40:46<9:37:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4267/15423 [3:40:46<9:37:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4268/15423 [3:40:49<9:37:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4268/15423 [3:40:49<9:37:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4269/15423 [3:40:51<9:37:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4269/15423 [3:40:51<9:37:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4270/15423 [3:40:53<9:36:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4270/15423 [3:40:53<9:36:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4271/15423 [3:40:54<9:36:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4271/15423 [3:40:54<9:36:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4272/15423 [3:40:59<9:36:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4272/15423 [3:40:59<9:36:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4273/15423 [3:41:03<9:36:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4273/15423 [3:41:03<9:36:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4274/15423 [3:41:06<9:36:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4274/15423 [3:41:06<9:36:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4275/15423 [3:41:08<9:36:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4275/15423 [3:41:08<9:36:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4276/15423 [3:41:11<9:36:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4276/15423 [3:41:11<9:36:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4277/15423 [3:41:13<9:36:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4277/15423 [3:41:13<9:36:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4278/15423 [3:41:14<9:36:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4278/15423 [3:41:14<9:36:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4279/15423 [3:41:17<9:36:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4279/15423 [3:41:17<9:36:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4280/15423 [3:41:21<9:36:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4280/15423 [3:41:21<9:36:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4281/15423 [3:41:23<9:36:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4281/15423 [3:41:23<9:36:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4282/15423 [3:41:26<9:36:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4282/15423 [3:41:26<9:36:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4283/15423 [3:41:30<9:36:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4283/15423 [3:41:30<9:36:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4284/15423 [3:41:34<9:36:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4284/15423 [3:41:34<9:36:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4285/15423 [3:41:36<9:36:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4285/15423 [3:41:36<9:36:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4286/15423 [3:41:39<9:35:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4286/15423 [3:41:39<9:35:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4287/15423 [3:41:41<9:35:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4287/15423 [3:41:41<9:35:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4288/15423 [3:42:02<9:36:34,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4288/15423 [3:42:02<9:36:34,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4289/15423 [3:42:02<9:36:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4289/15423 [3:42:02<9:36:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4290/15423 [3:42:04<9:36:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4290/15423 [3:42:04<9:36:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4291/15423 [3:42:07<9:36:14,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4291/15423 [3:42:07<9:36:14,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4292/15423 [3:42:09<9:36:09,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4292/15423 [3:42:09<9:36:09,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4293/15423 [3:42:11<9:36:02,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4293/15423 [3:42:11<9:36:02,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4294/15423 [3:42:14<9:36:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4294/15423 [3:42:14<9:36:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4295/15423 [3:42:16<9:35:54,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4295/15423 [3:42:16<9:35:54,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4296/15423 [3:42:21<9:35:54,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4296/15423 [3:42:21<9:35:54,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4297/15423 [3:42:21<9:35:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4297/15423 [3:42:21<9:35:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4298/15423 [3:42:26<9:35:45,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4298/15423 [3:42:26<9:35:45,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4299/15423 [3:42:27<9:35:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4299/15423 [3:42:27<9:35:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4300/15423 [3:42:29<9:35:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4300/15423 [3:42:29<9:35:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4301/15423 [3:42:32<9:35:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4301/15423 [3:42:32<9:35:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4302/15423 [3:42:35<9:35:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4302/15423 [3:42:35<9:35:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4303/15423 [3:42:36<9:35:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4303/15423 [3:42:36<9:35:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4304/15423 [3:42:37<9:35:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4304/15423 [3:42:37<9:35:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4305/15423 [3:42:40<9:35:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4305/15423 [3:42:40<9:35:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4306/15423 [3:42:43<9:35:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4306/15423 [3:42:43<9:35:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4307/15423 [3:42:47<9:34:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4307/15423 [3:42:47<9:34:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4308/15423 [3:42:50<9:34:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4308/15423 [3:42:50<9:34:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4309/15423 [3:42:52<9:34:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4309/15423 [3:42:52<9:34:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4310/15423 [3:42:54<9:34:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4310/15423 [3:42:54<9:34:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4311/15423 [3:42:56<9:34:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4311/15423 [3:42:56<9:34:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4312/15423 [3:43:00<9:34:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4312/15423 [3:43:00<9:34:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4313/15423 [3:43:04<9:34:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4313/15423 [3:43:04<9:34:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4314/15423 [3:43:08<9:34:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4314/15423 [3:43:08<9:34:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4315/15423 [3:43:10<9:34:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4315/15423 [3:43:10<9:34:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4316/15423 [3:43:13<9:34:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4316/15423 [3:43:13<9:34:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4317/15423 [3:43:16<9:34:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4317/15423 [3:43:16<9:34:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4318/15423 [3:43:19<9:34:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4318/15423 [3:43:19<9:34:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4319/15423 [3:43:21<9:34:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4319/15423 [3:43:21<9:34:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4320/15423 [3:43:39<9:34:50,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4320/15423 [3:43:39<9:34:50,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4321/15423 [3:43:40<9:34:42,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4321/15423 [3:43:40<9:34:42,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4322/15423 [3:43:42<9:34:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4322/15423 [3:43:42<9:34:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4323/15423 [3:43:46<9:34:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4323/15423 [3:43:46<9:34:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4324/15423 [3:43:49<9:34:31,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4324/15423 [3:43:49<9:34:31,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4325/15423 [3:43:51<9:34:24,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4325/15423 [3:43:51<9:34:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4326/15423 [3:43:52<9:34:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4326/15423 [3:43:52<9:34:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4327/15423 [3:43:56<9:34:15,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4327/15423 [3:43:56<9:34:15,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4328/15423 [3:43:57<9:34:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4328/15423 [3:43:57<9:34:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4329/15423 [3:44:01<9:34:07,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4329/15423 [3:44:01<9:34:07,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4330/15423 [3:44:03<9:34:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4330/15423 [3:44:03<9:34:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4331/15423 [3:44:05<9:33:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4331/15423 [3:44:05<9:33:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4332/15423 [3:44:06<9:33:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4332/15423 [3:44:06<9:33:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4333/15423 [3:44:08<9:33:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4333/15423 [3:44:08<9:33:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4334/15423 [3:44:10<9:33:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4334/15423 [3:44:10<9:33:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4335/15423 [3:44:13<9:33:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4335/15423 [3:44:13<9:33:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4336/15423 [3:44:16<9:33:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4336/15423 [3:44:16<9:33:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4337/15423 [3:44:18<9:33:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4337/15423 [3:44:18<9:33:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4338/15423 [3:44:19<9:33:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4338/15423 [3:44:19<9:33:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4339/15423 [3:44:22<9:33:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4339/15423 [3:44:22<9:33:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4340/15423 [3:44:24<9:33:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4340/15423 [3:44:24<9:33:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4341/15423 [3:44:28<9:33:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4341/15423 [3:44:28<9:33:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4342/15423 [3:44:31<9:32:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4342/15423 [3:44:31<9:32:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4343/15423 [3:44:35<9:32:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4343/15423 [3:44:35<9:32:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4344/15423 [3:44:37<9:32:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4344/15423 [3:44:37<9:32:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4345/15423 [3:44:39<9:32:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4345/15423 [3:44:39<9:32:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4346/15423 [3:44:42<9:32:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4346/15423 [3:44:42<9:32:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4347/15423 [3:44:46<9:32:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4347/15423 [3:44:46<9:32:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4348/15423 [3:44:47<9:32:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4348/15423 [3:44:47<9:32:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4349/15423 [3:44:51<9:32:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4349/15423 [3:44:51<9:32:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4350/15423 [3:44:54<9:32:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4350/15423 [3:44:54<9:32:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4351/15423 [3:44:55<9:32:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4351/15423 [3:44:55<9:32:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4352/15423 [3:45:17<9:33:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4352/15423 [3:45:17<9:33:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4353/15423 [3:45:21<9:33:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4353/15423 [3:45:21<9:33:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4354/15423 [3:45:25<9:33:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4354/15423 [3:45:25<9:33:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4355/15423 [3:45:26<9:32:56,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4355/15423 [3:45:26<9:32:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4356/15423 [3:45:28<9:32:49,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4356/15423 [3:45:28<9:32:49,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4357/15423 [3:45:30<9:32:44,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4357/15423 [3:45:30<9:32:44,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4358/15423 [3:45:34<9:32:44,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4358/15423 [3:45:34<9:32:44,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4359/15423 [3:45:35<9:32:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4359/15423 [3:45:35<9:32:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4360/15423 [3:45:37<9:32:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4360/15423 [3:45:37<9:32:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4361/15423 [3:45:40<9:32:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4361/15423 [3:45:40<9:32:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4362/15423 [3:45:44<9:32:26,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4362/15423 [3:45:44<9:32:26,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4363/15423 [3:45:47<9:32:23,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4363/15423 [3:45:47<9:32:23,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4364/15423 [3:45:49<9:32:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4364/15423 [3:45:49<9:32:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4365/15423 [3:45:52<9:32:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4365/15423 [3:45:52<9:32:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4366/15423 [3:45:55<9:32:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4366/15423 [3:45:55<9:32:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4367/15423 [3:45:58<9:32:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4367/15423 [3:45:58<9:32:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4368/15423 [3:46:02<9:32:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4368/15423 [3:46:02<9:32:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4369/15423 [3:46:05<9:32:02,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4369/15423 [3:46:05<9:32:02,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4370/15423 [3:46:09<9:32:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4370/15423 [3:46:09<9:32:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4371/15423 [3:46:13<9:32:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4371/15423 [3:46:13<9:32:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4372/15423 [3:46:14<9:31:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4372/15423 [3:46:14<9:31:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4373/15423 [3:46:16<9:31:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4373/15423 [3:46:16<9:31:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4374/15423 [3:46:17<9:31:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4374/15423 [3:46:17<9:31:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4375/15423 [3:46:21<9:31:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4375/15423 [3:46:21<9:31:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4376/15423 [3:46:23<9:31:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4376/15423 [3:46:23<9:31:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4377/15423 [3:46:26<9:31:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4377/15423 [3:46:26<9:31:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4378/15423 [3:46:29<9:31:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4378/15423 [3:46:29<9:31:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4379/15423 [3:46:31<9:31:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4379/15423 [3:46:31<9:31:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4380/15423 [3:46:34<9:31:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4380/15423 [3:46:34<9:31:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4381/15423 [3:46:38<9:31:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4381/15423 [3:46:38<9:31:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4382/15423 [3:46:39<9:31:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4382/15423 [3:46:39<9:31:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4383/15423 [3:46:41<9:31:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4383/15423 [3:46:41<9:31:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4384/15423 [3:46:59<9:31:33,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4384/15423 [3:46:59<9:31:33,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4385/15423 [3:47:01<9:31:27,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4385/15423 [3:47:01<9:31:27,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4386/15423 [3:47:04<9:31:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4386/15423 [3:47:04<9:31:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4387/15423 [3:47:08<9:31:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4387/15423 [3:47:08<9:31:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4388/15423 [3:47:09<9:31:15,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4388/15423 [3:47:09<9:31:15,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4389/15423 [3:47:12<9:31:11,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4389/15423 [3:47:12<9:31:11,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4390/15423 [3:47:14<9:31:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4390/15423 [3:47:14<9:31:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4391/15423 [3:47:16<9:30:59,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4391/15423 [3:47:16<9:30:59,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4392/15423 [3:47:19<9:30:56,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4392/15423 [3:47:19<9:30:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4393/15423 [3:47:20<9:30:48,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4393/15423 [3:47:20<9:30:48,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4394/15423 [3:47:22<9:30:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4394/15423 [3:47:22<9:30:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  28%|▎| 4395/15423 [3:47:23<9:30:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  28%|▎| 4395/15423 [3:47:23<9:30:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4396/15423 [3:47:24<9:30:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4396/15423 [3:47:24<9:30:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4397/15423 [3:47:25<9:30:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4397/15423 [3:47:25<9:30:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4398/15423 [3:47:27<9:30:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4398/15423 [3:47:27<9:30:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4399/15423 [3:47:29<9:30:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4399/15423 [3:47:29<9:30:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4400/15423 [3:47:33<9:30:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4400/15423 [3:47:33<9:30:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4401/15423 [3:47:35<9:29:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4401/15423 [3:47:35<9:29:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4402/15423 [3:47:37<9:29:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4402/15423 [3:47:37<9:29:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4403/15423 [3:47:40<9:29:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4403/15423 [3:47:40<9:29:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4404/15423 [3:47:44<9:29:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4404/15423 [3:47:44<9:29:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4405/15423 [3:47:47<9:29:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4405/15423 [3:47:47<9:29:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4406/15423 [3:47:52<9:29:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4406/15423 [3:47:52<9:29:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4407/15423 [3:47:55<9:29:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4407/15423 [3:47:55<9:29:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4408/15423 [3:47:57<9:29:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4408/15423 [3:47:57<9:29:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4409/15423 [3:48:01<9:29:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4409/15423 [3:48:01<9:29:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4410/15423 [3:48:01<9:29:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4410/15423 [3:48:01<9:29:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4411/15423 [3:48:02<9:29:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4411/15423 [3:48:02<9:29:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4412/15423 [3:48:04<9:29:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4412/15423 [3:48:04<9:29:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4413/15423 [3:48:08<9:29:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4413/15423 [3:48:08<9:29:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4414/15423 [3:48:13<9:29:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4414/15423 [3:48:13<9:29:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4415/15423 [3:48:16<9:29:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4415/15423 [3:48:16<9:29:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4416/15423 [3:48:34<9:29:44,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4416/15423 [3:48:34<9:29:44,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4417/15423 [3:48:35<9:29:36,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4417/15423 [3:48:35<9:29:36,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4418/15423 [3:48:39<9:29:33,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4418/15423 [3:48:39<9:29:33,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4419/15423 [3:48:40<9:29:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4419/15423 [3:48:40<9:29:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4420/15423 [3:48:42<9:29:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4420/15423 [3:48:42<9:29:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4421/15423 [3:48:43<9:29:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4421/15423 [3:48:43<9:29:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4422/15423 [3:48:44<9:29:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4422/15423 [3:48:44<9:29:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4423/15423 [3:48:46<9:28:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4423/15423 [3:48:46<9:28:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4424/15423 [3:48:50<9:28:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4424/15423 [3:48:50<9:28:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4425/15423 [3:48:51<9:28:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4425/15423 [3:48:51<9:28:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4426/15423 [3:48:53<9:28:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4426/15423 [3:48:53<9:28:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4427/15423 [3:48:55<9:28:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4427/15423 [3:48:55<9:28:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4428/15423 [3:48:58<9:28:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4428/15423 [3:48:58<9:28:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4429/15423 [3:49:01<9:28:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4429/15423 [3:49:01<9:28:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4430/15423 [3:49:02<9:28:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4430/15423 [3:49:02<9:28:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4431/15423 [3:49:04<9:28:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4431/15423 [3:49:04<9:28:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4432/15423 [3:49:06<9:28:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4432/15423 [3:49:06<9:28:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4433/15423 [3:49:09<9:28:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4433/15423 [3:49:09<9:28:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4434/15423 [3:49:12<9:28:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4434/15423 [3:49:12<9:28:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4435/15423 [3:49:13<9:27:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4435/15423 [3:49:13<9:27:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4436/15423 [3:49:14<9:27:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4436/15423 [3:49:14<9:27:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4437/15423 [3:49:16<9:27:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4437/15423 [3:49:16<9:27:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4438/15423 [3:49:19<9:27:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4438/15423 [3:49:19<9:27:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4439/15423 [3:49:23<9:27:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4439/15423 [3:49:23<9:27:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4440/15423 [3:49:24<9:27:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4440/15423 [3:49:24<9:27:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4441/15423 [3:49:26<9:27:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4441/15423 [3:49:26<9:27:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4442/15423 [3:49:26<9:27:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4442/15423 [3:49:26<9:27:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4443/15423 [3:49:30<9:27:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4443/15423 [3:49:30<9:27:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4444/15423 [3:49:32<9:27:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4444/15423 [3:49:32<9:27:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4445/15423 [3:49:35<9:27:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4445/15423 [3:49:35<9:27:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4446/15423 [3:49:38<9:26:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4446/15423 [3:49:38<9:26:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4447/15423 [3:49:39<9:26:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4447/15423 [3:49:39<9:26:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4448/15423 [3:50:11<9:27:58,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4448/15423 [3:50:11<9:27:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4449/15423 [3:50:13<9:27:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4449/15423 [3:50:13<9:27:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4450/15423 [3:50:17<9:27:51,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4450/15423 [3:50:17<9:27:51,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4451/15423 [3:50:20<9:27:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4451/15423 [3:50:20<9:27:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4452/15423 [3:50:24<9:27:46,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4452/15423 [3:50:24<9:27:46,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4453/15423 [3:50:27<9:27:45,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4453/15423 [3:50:27<9:27:45,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4454/15423 [3:50:31<9:27:43,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4454/15423 [3:50:31<9:27:43,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4455/15423 [3:50:34<9:27:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4455/15423 [3:50:34<9:27:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4456/15423 [3:50:38<9:27:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4456/15423 [3:50:38<9:27:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4457/15423 [3:50:42<9:27:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4457/15423 [3:50:42<9:27:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4458/15423 [3:50:44<9:27:32,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4458/15423 [3:50:44<9:27:32,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4459/15423 [3:50:47<9:27:28,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4459/15423 [3:50:47<9:27:28,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4460/15423 [3:50:50<9:27:24,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4460/15423 [3:50:50<9:27:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4461/15423 [3:50:54<9:27:24,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4461/15423 [3:50:54<9:27:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4462/15423 [3:50:58<9:27:23,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4462/15423 [3:50:58<9:27:23,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4463/15423 [3:51:00<9:27:16,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4463/15423 [3:51:00<9:27:16,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4464/15423 [3:51:02<9:27:13,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4464/15423 [3:51:02<9:27:13,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4465/15423 [3:51:05<9:27:09,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4465/15423 [3:51:05<9:27:09,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4466/15423 [3:51:10<9:27:09,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4466/15423 [3:51:10<9:27:09,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4467/15423 [3:51:11<9:27:01,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4467/15423 [3:51:11<9:27:01,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4468/15423 [3:51:13<9:26:56,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4468/15423 [3:51:13<9:26:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4469/15423 [3:51:17<9:26:56,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4469/15423 [3:51:17<9:26:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4470/15423 [3:51:21<9:26:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4470/15423 [3:51:21<9:26:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4471/15423 [3:51:24<9:26:51,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4471/15423 [3:51:24<9:26:51,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4472/15423 [3:51:26<9:26:45,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4472/15423 [3:51:26<9:26:45,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4473/15423 [3:51:31<9:26:46,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4473/15423 [3:51:31<9:26:46,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4474/15423 [3:51:33<9:26:40,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4474/15423 [3:51:33<9:26:40,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4475/15423 [3:51:34<9:26:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4475/15423 [3:51:34<9:26:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4476/15423 [3:51:36<9:26:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4476/15423 [3:51:36<9:26:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4477/15423 [3:51:38<9:26:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4477/15423 [3:51:38<9:26:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4478/15423 [3:51:43<9:26:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4478/15423 [3:51:43<9:26:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4479/15423 [3:51:47<9:26:21,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4479/15423 [3:51:47<9:26:21,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4480/15423 [3:51:57<9:26:34,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4480/15423 [3:51:57<9:26:34,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4481/15423 [3:51:58<9:26:28,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4481/15423 [3:51:58<9:26:28,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4482/15423 [3:52:01<9:26:24,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4482/15423 [3:52:01<9:26:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4483/15423 [3:52:04<9:26:21,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4483/15423 [3:52:04<9:26:21,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4484/15423 [3:52:08<9:26:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4484/15423 [3:52:08<9:26:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4485/15423 [3:52:09<9:26:11,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4485/15423 [3:52:09<9:26:11,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4486/15423 [3:52:13<9:26:11,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4486/15423 [3:52:13<9:26:11,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4487/15423 [3:52:18<9:26:10,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4487/15423 [3:52:18<9:26:10,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4488/15423 [3:52:19<9:26:04,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4488/15423 [3:52:19<9:26:04,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4489/15423 [3:52:21<9:25:58,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4489/15423 [3:52:21<9:25:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4490/15423 [3:52:22<9:25:50,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4490/15423 [3:52:22<9:25:50,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4491/15423 [3:52:26<9:25:48,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4491/15423 [3:52:26<9:25:48,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4492/15423 [3:52:27<9:25:41,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4492/15423 [3:52:27<9:25:41,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4493/15423 [3:52:28<9:25:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4493/15423 [3:52:28<9:25:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4494/15423 [3:52:32<9:25:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4494/15423 [3:52:32<9:25:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4495/15423 [3:52:34<9:25:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4495/15423 [3:52:34<9:25:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4496/15423 [3:52:37<9:25:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4496/15423 [3:52:37<9:25:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4497/15423 [3:52:40<9:25:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4497/15423 [3:52:40<9:25:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4498/15423 [3:52:40<9:25:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4498/15423 [3:52:40<9:25:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4499/15423 [3:52:44<9:25:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4499/15423 [3:52:44<9:25:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4500/15423 [3:52:49<9:25:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4500/15423 [3:52:49<9:25:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4501/15423 [3:52:53<9:25:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4501/15423 [3:52:53<9:25:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4502/15423 [3:52:54<9:25:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4502/15423 [3:52:54<9:25:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4503/15423 [3:52:55<9:24:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4503/15423 [3:52:55<9:24:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4504/15423 [3:52:59<9:24:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4504/15423 [3:52:59<9:24:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4505/15423 [3:53:00<9:24:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4505/15423 [3:53:00<9:24:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4506/15423 [3:53:01<9:24:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4506/15423 [3:53:01<9:24:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4507/15423 [3:53:03<9:24:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4507/15423 [3:53:03<9:24:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4508/15423 [3:53:05<9:24:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4508/15423 [3:53:05<9:24:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4509/15423 [3:53:09<9:24:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4509/15423 [3:53:09<9:24:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4510/15423 [3:53:11<9:24:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4510/15423 [3:53:11<9:24:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4511/15423 [3:53:13<9:24:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4511/15423 [3:53:13<9:24:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4512/15423 [3:53:36<9:24:56,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4512/15423 [3:53:36<9:24:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4513/15423 [3:53:38<9:24:48,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4513/15423 [3:53:38<9:24:48,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4514/15423 [3:53:41<9:24:45,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4514/15423 [3:53:41<9:24:45,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4515/15423 [3:53:45<9:24:44,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4515/15423 [3:53:45<9:24:44,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4516/15423 [3:53:45<9:24:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4516/15423 [3:53:45<9:24:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4517/15423 [3:53:48<9:24:31,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4517/15423 [3:53:48<9:24:31,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4518/15423 [3:53:51<9:24:27,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4518/15423 [3:53:51<9:24:27,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4519/15423 [3:53:52<9:24:19,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4519/15423 [3:53:52<9:24:19,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4520/15423 [3:53:54<9:24:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4520/15423 [3:53:54<9:24:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4521/15423 [3:53:57<9:24:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4521/15423 [3:53:57<9:24:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4522/15423 [3:53:58<9:24:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4522/15423 [3:53:58<9:24:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4523/15423 [3:54:00<9:23:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4523/15423 [3:54:00<9:23:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4524/15423 [3:54:03<9:23:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4524/15423 [3:54:03<9:23:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4525/15423 [3:54:05<9:23:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4525/15423 [3:54:05<9:23:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4526/15423 [3:54:07<9:23:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4526/15423 [3:54:07<9:23:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4527/15423 [3:54:10<9:23:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4527/15423 [3:54:10<9:23:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4528/15423 [3:54:14<9:23:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4528/15423 [3:54:14<9:23:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4529/15423 [3:54:16<9:23:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4529/15423 [3:54:16<9:23:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4530/15423 [3:54:17<9:23:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4530/15423 [3:54:17<9:23:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4531/15423 [3:54:20<9:23:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4531/15423 [3:54:20<9:23:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4532/15423 [3:54:23<9:23:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4532/15423 [3:54:23<9:23:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4533/15423 [3:54:25<9:23:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4533/15423 [3:54:25<9:23:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4534/15423 [3:54:27<9:23:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4534/15423 [3:54:27<9:23:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4535/15423 [3:54:31<9:23:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4535/15423 [3:54:31<9:23:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4536/15423 [3:54:34<9:23:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4536/15423 [3:54:34<9:23:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4537/15423 [3:54:38<9:23:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4537/15423 [3:54:38<9:23:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4538/15423 [3:54:40<9:22:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4538/15423 [3:54:40<9:22:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4539/15423 [3:54:44<9:22:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4539/15423 [3:54:44<9:22:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4540/15423 [3:54:45<9:22:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4540/15423 [3:54:45<9:22:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4541/15423 [3:54:47<9:22:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4541/15423 [3:54:47<9:22:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4542/15423 [3:54:48<9:22:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4542/15423 [3:54:48<9:22:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4543/15423 [3:54:50<9:22:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4543/15423 [3:54:50<9:22:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4544/15423 [3:55:14<9:23:12,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4544/15423 [3:55:14<9:23:12,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4545/15423 [3:55:16<9:23:06,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4545/15423 [3:55:16<9:23:06,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4546/15423 [3:55:18<9:23:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4546/15423 [3:55:18<9:23:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4547/15423 [3:55:20<9:22:55,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4547/15423 [3:55:20<9:22:55,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4548/15423 [3:55:22<9:22:49,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4548/15423 [3:55:22<9:22:49,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  29%|▎| 4549/15423 [3:55:26<9:22:47,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  29%|▎| 4549/15423 [3:55:26<9:22:47,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4550/15423 [3:55:29<9:22:43,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4550/15423 [3:55:29<9:22:43,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4551/15423 [3:55:30<9:22:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4551/15423 [3:55:30<9:22:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4552/15423 [3:55:32<9:22:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4552/15423 [3:55:32<9:22:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4553/15423 [3:55:35<9:22:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4553/15423 [3:55:35<9:22:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4554/15423 [3:55:37<9:22:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4554/15423 [3:55:37<9:22:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4555/15423 [3:55:39<9:22:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4555/15423 [3:55:39<9:22:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4556/15423 [3:55:40<9:22:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4556/15423 [3:55:40<9:22:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4557/15423 [3:55:41<9:22:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4557/15423 [3:55:41<9:22:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4558/15423 [3:55:45<9:21:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4558/15423 [3:55:45<9:21:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4559/15423 [3:55:48<9:21:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4559/15423 [3:55:48<9:21:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4560/15423 [3:55:49<9:21:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4560/15423 [3:55:49<9:21:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4561/15423 [3:55:50<9:21:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4561/15423 [3:55:50<9:21:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4562/15423 [3:55:52<9:21:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4562/15423 [3:55:52<9:21:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4563/15423 [3:55:54<9:21:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4563/15423 [3:55:54<9:21:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4564/15423 [3:55:57<9:21:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4564/15423 [3:55:57<9:21:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4565/15423 [3:56:00<9:21:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4565/15423 [3:56:00<9:21:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4566/15423 [3:56:02<9:21:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4566/15423 [3:56:02<9:21:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4567/15423 [3:56:04<9:21:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4567/15423 [3:56:04<9:21:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4568/15423 [3:56:05<9:21:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4568/15423 [3:56:05<9:21:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4569/15423 [3:56:07<9:20:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4569/15423 [3:56:07<9:20:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4570/15423 [3:56:09<9:20:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4570/15423 [3:56:09<9:20:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4571/15423 [3:56:13<9:20:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4571/15423 [3:56:13<9:20:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4572/15423 [3:56:15<9:20:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4572/15423 [3:56:15<9:20:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4573/15423 [3:56:19<9:20:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4573/15423 [3:56:19<9:20:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4574/15423 [3:56:22<9:20:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4574/15423 [3:56:22<9:20:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4575/15423 [3:56:25<9:20:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4575/15423 [3:56:25<9:20:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4576/15423 [3:56:50<9:21:24,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4576/15423 [3:56:50<9:21:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4577/15423 [3:56:51<9:21:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4577/15423 [3:56:51<9:21:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4578/15423 [3:56:54<9:21:13,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4578/15423 [3:56:54<9:21:13,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4579/15423 [3:56:56<9:21:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4579/15423 [3:56:56<9:21:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4580/15423 [3:56:57<9:21:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4580/15423 [3:56:57<9:21:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4581/15423 [3:57:00<9:20:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4581/15423 [3:57:00<9:20:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4582/15423 [3:57:04<9:20:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4582/15423 [3:57:04<9:20:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4583/15423 [3:57:08<9:20:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4583/15423 [3:57:08<9:20:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4584/15423 [3:57:10<9:20:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4584/15423 [3:57:10<9:20:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4585/15423 [3:57:14<9:20:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4585/15423 [3:57:14<9:20:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4586/15423 [3:57:17<9:20:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4586/15423 [3:57:17<9:20:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4587/15423 [3:57:20<9:20:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4587/15423 [3:57:20<9:20:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4588/15423 [3:57:23<9:20:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4588/15423 [3:57:23<9:20:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4589/15423 [3:57:26<9:20:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4589/15423 [3:57:26<9:20:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4590/15423 [3:57:27<9:20:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4590/15423 [3:57:27<9:20:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4591/15423 [3:57:32<9:20:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4591/15423 [3:57:32<9:20:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4592/15423 [3:57:33<9:20:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4592/15423 [3:57:33<9:20:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4593/15423 [3:57:35<9:20:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4593/15423 [3:57:35<9:20:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4594/15423 [3:57:37<9:20:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4594/15423 [3:57:37<9:20:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4595/15423 [3:57:41<9:20:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4595/15423 [3:57:41<9:20:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4596/15423 [3:57:43<9:20:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4596/15423 [3:57:43<9:20:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4597/15423 [3:57:46<9:19:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4597/15423 [3:57:46<9:19:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4598/15423 [3:57:50<9:19:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4598/15423 [3:57:50<9:19:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4599/15423 [3:57:51<9:19:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4599/15423 [3:57:51<9:19:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4600/15423 [3:57:55<9:19:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4600/15423 [3:57:55<9:19:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4601/15423 [3:57:56<9:19:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4601/15423 [3:57:56<9:19:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4602/15423 [3:57:58<9:19:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4602/15423 [3:57:58<9:19:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4603/15423 [3:57:59<9:19:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4603/15423 [3:57:59<9:19:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4604/15423 [3:58:00<9:19:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4604/15423 [3:58:00<9:19:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4605/15423 [3:58:03<9:19:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4605/15423 [3:58:03<9:19:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4606/15423 [3:58:07<9:19:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4606/15423 [3:58:07<9:19:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4607/15423 [3:58:09<9:19:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4607/15423 [3:58:09<9:19:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4608/15423 [3:58:24<9:19:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4608/15423 [3:58:24<9:19:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4609/15423 [3:58:27<9:19:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4609/15423 [3:58:27<9:19:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4610/15423 [3:58:30<9:19:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4610/15423 [3:58:30<9:19:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4611/15423 [3:58:32<9:19:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4611/15423 [3:58:32<9:19:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4612/15423 [3:58:33<9:19:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4612/15423 [3:58:33<9:19:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4613/15423 [3:58:37<9:19:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4613/15423 [3:58:37<9:19:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4614/15423 [3:58:39<9:19:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4614/15423 [3:58:39<9:19:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4615/15423 [3:58:43<9:19:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4615/15423 [3:58:43<9:19:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4616/15423 [3:58:45<9:18:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4616/15423 [3:58:45<9:18:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4617/15423 [3:58:49<9:18:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4617/15423 [3:58:49<9:18:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4618/15423 [3:58:51<9:18:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4618/15423 [3:58:51<9:18:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4619/15423 [3:58:54<9:18:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4619/15423 [3:58:54<9:18:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4620/15423 [3:58:58<9:18:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4620/15423 [3:58:58<9:18:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4621/15423 [3:59:01<9:18:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4621/15423 [3:59:01<9:18:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4622/15423 [3:59:05<9:18:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4622/15423 [3:59:05<9:18:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4623/15423 [3:59:09<9:18:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4623/15423 [3:59:09<9:18:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4624/15423 [3:59:12<9:18:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4624/15423 [3:59:12<9:18:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4625/15423 [3:59:13<9:18:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4625/15423 [3:59:13<9:18:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4626/15423 [3:59:14<9:18:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4626/15423 [3:59:14<9:18:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4627/15423 [3:59:15<9:18:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4627/15423 [3:59:15<9:18:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4628/15423 [3:59:18<9:18:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4628/15423 [3:59:18<9:18:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4629/15423 [3:59:18<9:18:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4629/15423 [3:59:18<9:18:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4630/15423 [3:59:23<9:18:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4630/15423 [3:59:23<9:18:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4631/15423 [3:59:25<9:17:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4631/15423 [3:59:25<9:17:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4632/15423 [3:59:29<9:17:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4632/15423 [3:59:29<9:17:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4633/15423 [3:59:31<9:17:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4633/15423 [3:59:31<9:17:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4634/15423 [3:59:35<9:17:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4634/15423 [3:59:35<9:17:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4635/15423 [3:59:37<9:17:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4635/15423 [3:59:37<9:17:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4636/15423 [3:59:38<9:17:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4636/15423 [3:59:38<9:17:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4637/15423 [3:59:39<9:17:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4637/15423 [3:59:39<9:17:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4638/15423 [3:59:44<9:17:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4638/15423 [3:59:44<9:17:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4639/15423 [3:59:44<9:17:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4639/15423 [3:59:44<9:17:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4640/15423 [4:00:02<9:17:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4640/15423 [4:00:02<9:17:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4641/15423 [4:00:04<9:17:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4641/15423 [4:00:04<9:17:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4642/15423 [4:00:08<9:17:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4642/15423 [4:00:08<9:17:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4643/15423 [4:00:12<9:17:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4643/15423 [4:00:12<9:17:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4644/15423 [4:00:15<9:17:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4644/15423 [4:00:15<9:17:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4645/15423 [4:00:16<9:17:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4645/15423 [4:00:16<9:17:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4646/15423 [4:00:20<9:17:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4646/15423 [4:00:20<9:17:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4647/15423 [4:00:21<9:17:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4647/15423 [4:00:21<9:17:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4648/15423 [4:00:22<9:17:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4648/15423 [4:00:22<9:17:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4649/15423 [4:00:23<9:17:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4649/15423 [4:00:23<9:17:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4650/15423 [4:00:27<9:17:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4650/15423 [4:00:27<9:17:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4651/15423 [4:00:29<9:17:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4651/15423 [4:00:29<9:17:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4652/15423 [4:00:31<9:16:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4652/15423 [4:00:31<9:16:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4653/15423 [4:00:32<9:16:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4653/15423 [4:00:32<9:16:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4654/15423 [4:00:33<9:16:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4654/15423 [4:00:33<9:16:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4655/15423 [4:00:37<9:16:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4655/15423 [4:00:37<9:16:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4656/15423 [4:00:41<9:16:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4656/15423 [4:00:41<9:16:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4657/15423 [4:00:43<9:16:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4657/15423 [4:00:43<9:16:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4658/15423 [4:00:47<9:16:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4658/15423 [4:00:47<9:16:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4659/15423 [4:00:50<9:16:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4659/15423 [4:00:50<9:16:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4660/15423 [4:00:52<9:16:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4660/15423 [4:00:52<9:16:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4661/15423 [4:00:55<9:16:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4661/15423 [4:00:55<9:16:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4662/15423 [4:00:58<9:16:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4662/15423 [4:00:58<9:16:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4663/15423 [4:01:02<9:16:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4663/15423 [4:01:02<9:16:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4664/15423 [4:01:03<9:16:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4664/15423 [4:01:03<9:16:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4665/15423 [4:01:08<9:16:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4665/15423 [4:01:08<9:16:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4666/15423 [4:01:09<9:15:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4666/15423 [4:01:09<9:15:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4667/15423 [4:01:13<9:15:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4667/15423 [4:01:13<9:15:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4668/15423 [4:01:16<9:15:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4668/15423 [4:01:16<9:15:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4669/15423 [4:01:20<9:15:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4669/15423 [4:01:20<9:15:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4670/15423 [4:01:24<9:15:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4670/15423 [4:01:24<9:15:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4671/15423 [4:01:26<9:15:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4671/15423 [4:01:26<9:15:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4672/15423 [4:01:42<9:16:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4672/15423 [4:01:42<9:16:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4673/15423 [4:01:45<9:16:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4673/15423 [4:01:45<9:16:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4674/15423 [4:01:47<9:16:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4674/15423 [4:01:47<9:16:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4675/15423 [4:01:51<9:16:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4675/15423 [4:01:51<9:16:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4676/15423 [4:01:52<9:15:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4676/15423 [4:01:52<9:15:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4677/15423 [4:01:54<9:15:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4677/15423 [4:01:54<9:15:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4678/15423 [4:01:58<9:15:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4678/15423 [4:01:58<9:15:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4679/15423 [4:02:00<9:15:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4679/15423 [4:02:00<9:15:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4680/15423 [4:02:01<9:15:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4680/15423 [4:02:01<9:15:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4681/15423 [4:02:05<9:15:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4681/15423 [4:02:05<9:15:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4682/15423 [4:02:06<9:15:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4682/15423 [4:02:06<9:15:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4683/15423 [4:02:07<9:15:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4683/15423 [4:02:07<9:15:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4684/15423 [4:02:09<9:15:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4684/15423 [4:02:09<9:15:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4685/15423 [4:02:12<9:15:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4685/15423 [4:02:12<9:15:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4686/15423 [4:02:13<9:14:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4686/15423 [4:02:13<9:14:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4687/15423 [4:02:16<9:14:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4687/15423 [4:02:16<9:14:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4688/15423 [4:02:19<9:14:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4688/15423 [4:02:19<9:14:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4689/15423 [4:02:21<9:14:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4689/15423 [4:02:21<9:14:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4690/15423 [4:02:23<9:14:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4690/15423 [4:02:23<9:14:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4691/15423 [4:02:24<9:14:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4691/15423 [4:02:24<9:14:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4692/15423 [4:02:28<9:14:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4692/15423 [4:02:28<9:14:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4693/15423 [4:02:29<9:14:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4693/15423 [4:02:29<9:14:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4694/15423 [4:02:32<9:14:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4694/15423 [4:02:32<9:14:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4695/15423 [4:02:35<9:14:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4695/15423 [4:02:35<9:14:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4696/15423 [4:02:39<9:14:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4696/15423 [4:02:39<9:14:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4697/15423 [4:02:43<9:14:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4697/15423 [4:02:43<9:14:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4698/15423 [4:02:44<9:14:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4698/15423 [4:02:44<9:14:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4699/15423 [4:02:49<9:14:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4699/15423 [4:02:49<9:14:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4700/15423 [4:02:49<9:14:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4700/15423 [4:02:49<9:14:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4701/15423 [4:02:54<9:14:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4701/15423 [4:02:54<9:14:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4702/15423 [4:02:55<9:13:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4702/15423 [4:02:55<9:13:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4703/15423 [4:02:59<9:13:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4703/15423 [4:02:59<9:13:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  30%|▎| 4704/15423 [4:03:26<9:14:43,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  30%|▎| 4704/15423 [4:03:26<9:14:43,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4705/15423 [4:03:29<9:14:40,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4705/15423 [4:03:29<9:14:40,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4706/15423 [4:03:34<9:14:40,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4706/15423 [4:03:34<9:14:40,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4707/15423 [4:03:34<9:14:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4707/15423 [4:03:34<9:14:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4708/15423 [4:03:37<9:14:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4708/15423 [4:03:37<9:14:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4709/15423 [4:03:38<9:14:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4709/15423 [4:03:38<9:14:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4710/15423 [4:03:43<9:14:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4710/15423 [4:03:43<9:14:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4711/15423 [4:03:44<9:14:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4711/15423 [4:03:44<9:14:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4712/15423 [4:03:46<9:14:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4712/15423 [4:03:46<9:14:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4713/15423 [4:03:48<9:14:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4713/15423 [4:03:48<9:14:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4714/15423 [4:03:49<9:13:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4714/15423 [4:03:49<9:13:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4715/15423 [4:03:52<9:13:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4715/15423 [4:03:52<9:13:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4716/15423 [4:03:54<9:13:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4716/15423 [4:03:54<9:13:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4717/15423 [4:03:58<9:13:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4717/15423 [4:03:58<9:13:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4718/15423 [4:03:58<9:13:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4718/15423 [4:03:58<9:13:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4719/15423 [4:04:01<9:13:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4719/15423 [4:04:01<9:13:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4720/15423 [4:04:02<9:13:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4720/15423 [4:04:02<9:13:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4721/15423 [4:04:06<9:13:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4721/15423 [4:04:06<9:13:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4722/15423 [4:04:10<9:13:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4722/15423 [4:04:10<9:13:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4723/15423 [4:04:11<9:13:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4723/15423 [4:04:11<9:13:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4724/15423 [4:04:15<9:13:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4724/15423 [4:04:15<9:13:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4725/15423 [4:04:18<9:13:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4725/15423 [4:04:18<9:13:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4726/15423 [4:04:21<9:13:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4726/15423 [4:04:21<9:13:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4727/15423 [4:04:25<9:13:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4727/15423 [4:04:25<9:13:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4728/15423 [4:04:27<9:12:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4728/15423 [4:04:27<9:12:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4729/15423 [4:04:29<9:12:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4729/15423 [4:04:29<9:12:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4730/15423 [4:04:32<9:12:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4730/15423 [4:04:32<9:12:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4731/15423 [4:04:33<9:12:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4731/15423 [4:04:33<9:12:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4732/15423 [4:04:37<9:12:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4732/15423 [4:04:37<9:12:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4733/15423 [4:04:39<9:12:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4733/15423 [4:04:39<9:12:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4734/15423 [4:04:41<9:12:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4734/15423 [4:04:41<9:12:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4735/15423 [4:04:44<9:12:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4735/15423 [4:04:44<9:12:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4736/15423 [4:04:53<9:12:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4736/15423 [4:04:53<9:12:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4737/15423 [4:04:58<9:12:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4737/15423 [4:04:58<9:12:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4738/15423 [4:05:01<9:12:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4738/15423 [4:05:01<9:12:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4739/15423 [4:05:02<9:12:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4739/15423 [4:05:02<9:12:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4740/15423 [4:05:04<9:12:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4740/15423 [4:05:04<9:12:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4741/15423 [4:05:06<9:12:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4741/15423 [4:05:06<9:12:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4742/15423 [4:05:08<9:12:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4742/15423 [4:05:08<9:12:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4743/15423 [4:05:09<9:12:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4743/15423 [4:05:09<9:12:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4744/15423 [4:05:10<9:11:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4744/15423 [4:05:10<9:11:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4745/15423 [4:05:11<9:11:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4745/15423 [4:05:11<9:11:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4746/15423 [4:05:15<9:11:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4746/15423 [4:05:15<9:11:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4747/15423 [4:05:16<9:11:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4747/15423 [4:05:16<9:11:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4748/15423 [4:05:18<9:11:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4748/15423 [4:05:18<9:11:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4749/15423 [4:05:22<9:11:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4749/15423 [4:05:22<9:11:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4750/15423 [4:05:25<9:11:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4750/15423 [4:05:25<9:11:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4751/15423 [4:05:27<9:11:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4751/15423 [4:05:27<9:11:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4752/15423 [4:05:32<9:11:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4752/15423 [4:05:32<9:11:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4753/15423 [4:05:34<9:11:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4753/15423 [4:05:34<9:11:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4754/15423 [4:05:36<9:11:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4754/15423 [4:05:36<9:11:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4755/15423 [4:05:37<9:11:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4755/15423 [4:05:37<9:11:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4756/15423 [4:05:40<9:10:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4756/15423 [4:05:40<9:10:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4757/15423 [4:05:43<9:10:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4757/15423 [4:05:43<9:10:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4758/15423 [4:05:44<9:10:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4758/15423 [4:05:44<9:10:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4759/15423 [4:05:48<9:10:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4759/15423 [4:05:48<9:10:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4760/15423 [4:05:52<9:10:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4760/15423 [4:05:52<9:10:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4761/15423 [4:05:53<9:10:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4761/15423 [4:05:53<9:10:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4762/15423 [4:05:54<9:10:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4762/15423 [4:05:54<9:10:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4763/15423 [4:05:59<9:10:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4763/15423 [4:05:59<9:10:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4764/15423 [4:06:03<9:10:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4764/15423 [4:06:03<9:10:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4765/15423 [4:06:06<9:10:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4765/15423 [4:06:06<9:10:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4766/15423 [4:06:10<9:10:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4766/15423 [4:06:10<9:10:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4767/15423 [4:06:14<9:10:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4767/15423 [4:06:14<9:10:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4768/15423 [4:06:31<9:10:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4768/15423 [4:06:31<9:10:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4769/15423 [4:06:32<9:10:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4769/15423 [4:06:32<9:10:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4770/15423 [4:06:35<9:10:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4770/15423 [4:06:35<9:10:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4771/15423 [4:06:38<9:10:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4771/15423 [4:06:38<9:10:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4772/15423 [4:06:41<9:10:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4772/15423 [4:06:41<9:10:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4773/15423 [4:06:42<9:10:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4773/15423 [4:06:42<9:10:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4774/15423 [4:06:45<9:10:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4774/15423 [4:06:45<9:10:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4775/15423 [4:06:46<9:10:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4775/15423 [4:06:46<9:10:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4776/15423 [4:06:49<9:10:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4776/15423 [4:06:49<9:10:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4777/15423 [4:06:51<9:10:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4777/15423 [4:06:51<9:10:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4778/15423 [4:06:53<9:10:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4778/15423 [4:06:53<9:10:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4779/15423 [4:06:57<9:10:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4779/15423 [4:06:57<9:10:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4780/15423 [4:07:00<9:09:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4780/15423 [4:07:00<9:09:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4781/15423 [4:07:02<9:09:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4781/15423 [4:07:02<9:09:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4782/15423 [4:07:06<9:09:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4782/15423 [4:07:06<9:09:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4783/15423 [4:07:10<9:09:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4783/15423 [4:07:10<9:09:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4784/15423 [4:07:14<9:09:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4784/15423 [4:07:14<9:09:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4785/15423 [4:07:17<9:09:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4785/15423 [4:07:17<9:09:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4786/15423 [4:07:20<9:09:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4786/15423 [4:07:20<9:09:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4787/15423 [4:07:23<9:09:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4787/15423 [4:07:23<9:09:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4788/15423 [4:07:24<9:09:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4788/15423 [4:07:24<9:09:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4789/15423 [4:07:28<9:09:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4789/15423 [4:07:28<9:09:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4790/15423 [4:07:31<9:09:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4790/15423 [4:07:31<9:09:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4791/15423 [4:07:32<9:09:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4791/15423 [4:07:32<9:09:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4792/15423 [4:07:35<9:09:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4792/15423 [4:07:35<9:09:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4793/15423 [4:07:38<9:09:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4793/15423 [4:07:38<9:09:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4794/15423 [4:07:41<9:09:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4794/15423 [4:07:41<9:09:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4795/15423 [4:07:44<9:09:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4795/15423 [4:07:44<9:09:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4796/15423 [4:07:46<9:09:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4796/15423 [4:07:46<9:09:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4797/15423 [4:07:47<9:08:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4797/15423 [4:07:47<9:08:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4798/15423 [4:07:50<9:08:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4798/15423 [4:07:50<9:08:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4799/15423 [4:07:51<9:08:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4799/15423 [4:07:51<9:08:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4800/15423 [4:08:13<9:09:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4800/15423 [4:08:13<9:09:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4801/15423 [4:08:40<9:10:11,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4801/15423 [4:08:40<9:10:11,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4802/15423 [4:08:43<9:10:07,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4802/15423 [4:08:43<9:10:07,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4803/15423 [4:08:47<9:10:07,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4803/15423 [4:08:47<9:10:07,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4804/15423 [4:08:51<9:10:04,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4804/15423 [4:08:51<9:10:04,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4805/15423 [4:08:52<9:09:58,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4805/15423 [4:08:52<9:09:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4806/15423 [4:08:53<9:09:49,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4806/15423 [4:08:53<9:09:49,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4807/15423 [4:08:55<9:09:43,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4807/15423 [4:08:55<9:09:43,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4808/15423 [4:08:58<9:09:40,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4808/15423 [4:08:58<9:09:40,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4809/15423 [4:09:00<9:09:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4809/15423 [4:09:00<9:09:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4810/15423 [4:09:03<9:09:32,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4810/15423 [4:09:03<9:09:32,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4811/15423 [4:09:05<9:09:26,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4811/15423 [4:09:05<9:09:26,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4812/15423 [4:09:07<9:09:21,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4812/15423 [4:09:07<9:09:21,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4813/15423 [4:09:11<9:09:20,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4813/15423 [4:09:11<9:09:20,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4814/15423 [4:09:12<9:09:11,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4814/15423 [4:09:12<9:09:11,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4815/15423 [4:09:13<9:09:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4815/15423 [4:09:13<9:09:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4816/15423 [4:09:17<9:09:03,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4816/15423 [4:09:17<9:09:03,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4817/15423 [4:09:19<9:08:57,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4817/15423 [4:09:19<9:08:57,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4818/15423 [4:09:21<9:08:51,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4818/15423 [4:09:21<9:08:51,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4819/15423 [4:09:25<9:08:49,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4819/15423 [4:09:25<9:08:49,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4820/15423 [4:09:26<9:08:43,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4820/15423 [4:09:26<9:08:43,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4821/15423 [4:09:28<9:08:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4821/15423 [4:09:28<9:08:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4822/15423 [4:09:32<9:08:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4822/15423 [4:09:32<9:08:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4823/15423 [4:09:32<9:08:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4823/15423 [4:09:32<9:08:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4824/15423 [4:09:34<9:08:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4824/15423 [4:09:34<9:08:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4825/15423 [4:09:37<9:08:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4825/15423 [4:09:37<9:08:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4826/15423 [4:09:41<9:08:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4826/15423 [4:09:41<9:08:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4827/15423 [4:09:43<9:08:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4827/15423 [4:09:43<9:08:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4828/15423 [4:09:46<9:08:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4828/15423 [4:09:46<9:08:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4829/15423 [4:09:49<9:08:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4829/15423 [4:09:49<9:08:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4830/15423 [4:09:51<9:07:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4830/15423 [4:09:51<9:07:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4831/15423 [4:09:51<9:07:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4831/15423 [4:09:51<9:07:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4832/15423 [4:10:13<9:08:27,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4832/15423 [4:10:13<9:08:27,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4833/15423 [4:10:15<9:08:22,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4833/15423 [4:10:15<9:08:22,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4834/15423 [4:10:16<9:08:14,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4834/15423 [4:10:16<9:08:14,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4835/15423 [4:10:17<9:08:06,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4835/15423 [4:10:17<9:08:06,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4836/15423 [4:10:22<9:08:06,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4836/15423 [4:10:22<9:08:06,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4837/15423 [4:10:26<9:08:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4837/15423 [4:10:26<9:08:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4838/15423 [4:10:27<9:07:57,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4838/15423 [4:10:27<9:07:57,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4839/15423 [4:10:28<9:07:51,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4839/15423 [4:10:28<9:07:51,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4840/15423 [4:10:33<9:07:50,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4840/15423 [4:10:33<9:07:50,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4841/15423 [4:10:33<9:07:42,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4841/15423 [4:10:33<9:07:42,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4842/15423 [4:10:34<9:07:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4842/15423 [4:10:34<9:07:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4843/15423 [4:10:36<9:07:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4843/15423 [4:10:36<9:07:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4844/15423 [4:10:36<9:07:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4844/15423 [4:10:36<9:07:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4845/15423 [4:10:37<9:07:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4845/15423 [4:10:37<9:07:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4846/15423 [4:10:42<9:07:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4846/15423 [4:10:42<9:07:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4847/15423 [4:10:43<9:07:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4847/15423 [4:10:43<9:07:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4848/15423 [4:10:44<9:06:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4848/15423 [4:10:44<9:06:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4849/15423 [4:10:47<9:06:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4849/15423 [4:10:47<9:06:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4850/15423 [4:10:52<9:06:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4850/15423 [4:10:52<9:06:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4851/15423 [4:10:55<9:06:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4851/15423 [4:10:55<9:06:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4852/15423 [4:10:56<9:06:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4852/15423 [4:10:56<9:06:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4853/15423 [4:10:59<9:06:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4853/15423 [4:10:59<9:06:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4854/15423 [4:11:01<9:06:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4854/15423 [4:11:01<9:06:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4855/15423 [4:11:03<9:06:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4855/15423 [4:11:03<9:06:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4856/15423 [4:11:04<9:06:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4856/15423 [4:11:04<9:06:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4857/15423 [4:11:09<9:06:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4857/15423 [4:11:09<9:06:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  31%|▎| 4858/15423 [4:11:11<9:06:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  31%|▎| 4858/15423 [4:11:11<9:06:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4859/15423 [4:11:15<9:06:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4859/15423 [4:11:15<9:06:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4860/15423 [4:11:15<9:06:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4860/15423 [4:11:15<9:06:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4861/15423 [4:11:18<9:06:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4861/15423 [4:11:18<9:06:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4862/15423 [4:11:19<9:05:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4862/15423 [4:11:19<9:05:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4863/15423 [4:11:20<9:05:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4863/15423 [4:11:20<9:05:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4864/15423 [4:11:49<9:06:39,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4864/15423 [4:11:49<9:06:39,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4865/15423 [4:11:50<9:06:33,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4865/15423 [4:11:50<9:06:33,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4866/15423 [4:11:53<9:06:29,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4866/15423 [4:11:53<9:06:29,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4867/15423 [4:11:56<9:06:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4867/15423 [4:11:56<9:06:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4868/15423 [4:12:00<9:06:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4868/15423 [4:12:00<9:06:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4869/15423 [4:12:01<9:06:16,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4869/15423 [4:12:01<9:06:16,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4870/15423 [4:12:03<9:06:10,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4870/15423 [4:12:03<9:06:10,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4871/15423 [4:12:04<9:06:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4871/15423 [4:12:04<9:06:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4872/15423 [4:12:08<9:06:02,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4872/15423 [4:12:08<9:06:02,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4873/15423 [4:12:11<9:06:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4873/15423 [4:12:11<9:06:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4874/15423 [4:12:14<9:05:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4874/15423 [4:12:14<9:05:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4875/15423 [4:12:16<9:05:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4875/15423 [4:12:16<9:05:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4876/15423 [4:12:17<9:05:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4876/15423 [4:12:17<9:05:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4877/15423 [4:12:21<9:05:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4877/15423 [4:12:21<9:05:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4878/15423 [4:12:24<9:05:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4878/15423 [4:12:24<9:05:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4879/15423 [4:12:27<9:05:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4879/15423 [4:12:27<9:05:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4880/15423 [4:12:32<9:05:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4880/15423 [4:12:32<9:05:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4881/15423 [4:12:36<9:05:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4881/15423 [4:12:36<9:05:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4882/15423 [4:12:38<9:05:30,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4882/15423 [4:12:38<9:05:30,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4883/15423 [4:12:39<9:05:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4883/15423 [4:12:39<9:05:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4884/15423 [4:12:41<9:05:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4884/15423 [4:12:41<9:05:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4885/15423 [4:12:43<9:05:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4885/15423 [4:12:43<9:05:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4886/15423 [4:12:44<9:05:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4886/15423 [4:12:44<9:05:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4887/15423 [4:12:47<9:05:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4887/15423 [4:12:47<9:05:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4888/15423 [4:12:48<9:04:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4888/15423 [4:12:48<9:04:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4889/15423 [4:12:51<9:04:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4889/15423 [4:12:51<9:04:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4890/15423 [4:12:53<9:04:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4890/15423 [4:12:53<9:04:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4891/15423 [4:12:55<9:04:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4891/15423 [4:12:55<9:04:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4892/15423 [4:12:58<9:04:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4892/15423 [4:12:58<9:04:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4893/15423 [4:13:02<9:04:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4893/15423 [4:13:02<9:04:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4894/15423 [4:13:06<9:04:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4894/15423 [4:13:06<9:04:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4895/15423 [4:13:09<9:04:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4895/15423 [4:13:09<9:04:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4896/15423 [4:13:25<9:04:54,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4896/15423 [4:13:25<9:04:54,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4897/15423 [4:13:27<9:04:49,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4897/15423 [4:13:27<9:04:49,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4898/15423 [4:13:29<9:04:42,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4898/15423 [4:13:29<9:04:43,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4899/15423 [4:13:33<9:04:42,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4899/15423 [4:13:33<9:04:42,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4900/15423 [4:13:36<9:04:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4900/15423 [4:13:36<9:04:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4901/15423 [4:13:37<9:04:31,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4901/15423 [4:13:37<9:04:31,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4902/15423 [4:13:39<9:04:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4902/15423 [4:13:39<9:04:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4903/15423 [4:13:41<9:04:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4903/15423 [4:13:41<9:04:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4904/15423 [4:13:46<9:04:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4904/15423 [4:13:46<9:04:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4905/15423 [4:13:49<9:04:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4905/15423 [4:13:49<9:04:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4906/15423 [4:13:51<9:04:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4906/15423 [4:13:51<9:04:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4907/15423 [4:13:54<9:04:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4907/15423 [4:13:54<9:04:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4908/15423 [4:13:54<9:03:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4908/15423 [4:13:54<9:03:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4909/15423 [4:13:58<9:03:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4909/15423 [4:13:58<9:03:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4910/15423 [4:14:00<9:03:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4910/15423 [4:14:00<9:03:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4911/15423 [4:14:02<9:03:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4911/15423 [4:14:02<9:03:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4912/15423 [4:14:07<9:03:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4912/15423 [4:14:07<9:03:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4913/15423 [4:14:07<9:03:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4913/15423 [4:14:07<9:03:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4914/15423 [4:14:08<9:03:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4914/15423 [4:14:08<9:03:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4915/15423 [4:14:10<9:03:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4915/15423 [4:14:10<9:03:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4916/15423 [4:14:11<9:03:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4916/15423 [4:14:11<9:03:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4917/15423 [4:14:11<9:03:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4917/15423 [4:14:11<9:03:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4918/15423 [4:14:16<9:03:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4918/15423 [4:14:16<9:03:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4919/15423 [4:14:18<9:03:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4919/15423 [4:14:18<9:03:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4920/15423 [4:14:20<9:02:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4920/15423 [4:14:20<9:02:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4921/15423 [4:14:23<9:02:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4921/15423 [4:14:23<9:02:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4922/15423 [4:14:24<9:02:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4922/15423 [4:14:24<9:02:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4923/15423 [4:14:28<9:02:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4923/15423 [4:14:28<9:02:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4924/15423 [4:14:30<9:02:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4924/15423 [4:14:30<9:02:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4925/15423 [4:14:32<9:02:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4925/15423 [4:14:32<9:02:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4926/15423 [4:14:33<9:02:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4926/15423 [4:14:33<9:02:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4927/15423 [4:14:37<9:02:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4927/15423 [4:14:37<9:02:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4928/15423 [4:15:07<9:03:20,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4928/15423 [4:15:07<9:03:20,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4929/15423 [4:15:10<9:03:16,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4929/15423 [4:15:10<9:03:16,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4930/15423 [4:15:13<9:03:12,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4930/15423 [4:15:13<9:03:12,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4931/15423 [4:15:14<9:03:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4931/15423 [4:15:14<9:03:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4932/15423 [4:15:16<9:03:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4932/15423 [4:15:16<9:03:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4933/15423 [4:15:21<9:03:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4933/15423 [4:15:21<9:03:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4934/15423 [4:15:25<9:02:59,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4934/15423 [4:15:25<9:02:59,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4935/15423 [4:15:27<9:02:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4935/15423 [4:15:27<9:02:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4936/15423 [4:15:29<9:02:48,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4936/15423 [4:15:29<9:02:48,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4937/15423 [4:15:33<9:02:47,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4937/15423 [4:15:33<9:02:47,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4938/15423 [4:15:35<9:02:41,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4938/15423 [4:15:35<9:02:41,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4939/15423 [4:15:36<9:02:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4939/15423 [4:15:36<9:02:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4940/15423 [4:15:38<9:02:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4940/15423 [4:15:38<9:02:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4941/15423 [4:15:41<9:02:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4941/15423 [4:15:41<9:02:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4942/15423 [4:15:43<9:02:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4942/15423 [4:15:43<9:02:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4943/15423 [4:15:45<9:02:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4943/15423 [4:15:45<9:02:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4944/15423 [4:15:50<9:02:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4944/15423 [4:15:50<9:02:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4945/15423 [4:15:50<9:02:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4945/15423 [4:15:50<9:02:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4946/15423 [4:15:54<9:02:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4946/15423 [4:15:54<9:02:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4947/15423 [4:15:56<9:01:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4947/15423 [4:15:56<9:01:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4948/15423 [4:15:57<9:01:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4948/15423 [4:15:57<9:01:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4949/15423 [4:16:00<9:01:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4949/15423 [4:16:00<9:01:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4950/15423 [4:16:05<9:01:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4950/15423 [4:16:05<9:01:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4951/15423 [4:16:07<9:01:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4951/15423 [4:16:07<9:01:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4952/15423 [4:16:12<9:01:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4952/15423 [4:16:12<9:01:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4953/15423 [4:16:14<9:01:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4953/15423 [4:16:14<9:01:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4954/15423 [4:16:17<9:01:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4954/15423 [4:16:17<9:01:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4955/15423 [4:16:19<9:01:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4955/15423 [4:16:19<9:01:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4956/15423 [4:16:22<9:01:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4956/15423 [4:16:22<9:01:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4957/15423 [4:16:25<9:01:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4957/15423 [4:16:25<9:01:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4958/15423 [4:16:28<9:01:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4958/15423 [4:16:28<9:01:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4959/15423 [4:16:30<9:01:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4959/15423 [4:16:30<9:01:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4960/15423 [4:16:47<9:01:41,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4960/15423 [4:16:47<9:01:41,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4961/15423 [4:16:48<9:01:33,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4961/15423 [4:16:48<9:01:33,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4962/15423 [4:16:50<9:01:27,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4962/15423 [4:16:50<9:01:27,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4963/15423 [4:16:52<9:01:24,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4963/15423 [4:16:52<9:01:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4964/15423 [4:16:56<9:01:22,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4964/15423 [4:16:56<9:01:22,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4965/15423 [4:16:57<9:01:14,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4965/15423 [4:16:57<9:01:14,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4966/15423 [4:16:58<9:01:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4966/15423 [4:16:58<9:01:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4967/15423 [4:16:59<9:01:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4967/15423 [4:16:59<9:01:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4968/15423 [4:17:01<9:00:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4968/15423 [4:17:01<9:00:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4969/15423 [4:17:05<9:00:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4969/15423 [4:17:05<9:00:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4970/15423 [4:17:08<9:00:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4970/15423 [4:17:08<9:00:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4971/15423 [4:17:12<9:00:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4971/15423 [4:17:12<9:00:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4972/15423 [4:17:14<9:00:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4972/15423 [4:17:14<9:00:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4973/15423 [4:17:18<9:00:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4973/15423 [4:17:18<9:00:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4974/15423 [4:17:20<9:00:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4974/15423 [4:17:20<9:00:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4975/15423 [4:17:22<9:00:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4975/15423 [4:17:22<9:00:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4976/15423 [4:17:24<9:00:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4976/15423 [4:17:24<9:00:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4977/15423 [4:17:26<9:00:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4977/15423 [4:17:26<9:00:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4978/15423 [4:17:28<9:00:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4978/15423 [4:17:28<9:00:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4979/15423 [4:17:31<9:00:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4979/15423 [4:17:31<9:00:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4980/15423 [4:17:35<9:00:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4980/15423 [4:17:35<9:00:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4981/15423 [4:17:39<9:00:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4981/15423 [4:17:39<9:00:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4982/15423 [4:17:41<9:00:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4982/15423 [4:17:41<9:00:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4983/15423 [4:17:44<9:00:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4983/15423 [4:17:44<9:00:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4984/15423 [4:17:48<8:59:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4984/15423 [4:17:48<8:59:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4985/15423 [4:17:53<8:59:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4985/15423 [4:17:53<8:59:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4986/15423 [4:17:57<8:59:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4986/15423 [4:17:57<8:59:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4987/15423 [4:17:59<8:59:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4987/15423 [4:17:59<8:59:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4988/15423 [4:18:00<8:59:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4988/15423 [4:18:00<8:59:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4989/15423 [4:18:01<8:59:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4989/15423 [4:18:01<8:59:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4990/15423 [4:18:05<8:59:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4990/15423 [4:18:05<8:59:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4991/15423 [4:18:06<8:59:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4991/15423 [4:18:06<8:59:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4992/15423 [4:18:19<8:59:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4992/15423 [4:18:19<8:59:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4993/15423 [4:18:22<8:59:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4993/15423 [4:18:22<8:59:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4994/15423 [4:18:26<8:59:43,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4994/15423 [4:18:26<8:59:43,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4995/15423 [4:18:31<8:59:42,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4995/15423 [4:18:31<8:59:42,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4996/15423 [4:18:33<8:59:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4996/15423 [4:18:33<8:59:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4997/15423 [4:18:38<8:59:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4997/15423 [4:18:38<8:59:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4998/15423 [4:18:40<8:59:33,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4998/15423 [4:18:40<8:59:33,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 4999/15423 [4:18:44<8:59:32,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 4999/15423 [4:18:44<8:59:32,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 5000/15423 [4:18:48<8:59:30,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 5000/15423 [4:18:48<8:59:30,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 5001/15423 [4:18:52<8:59:29,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 5001/15423 [4:18:52<8:59:29,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 5002/15423 [4:18:55<8:59:26,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 5002/15423 [4:18:55<8:59:26,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 5003/15423 [4:19:00<8:59:26,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 5003/15423 [4:19:00<8:59:26,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 5004/15423 [4:19:02<8:59:22,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 5004/15423 [4:19:02<8:59:22,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 5005/15423 [4:19:07<8:59:21,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 5005/15423 [4:19:07<8:59:21,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 5006/15423 [4:19:08<8:59:15,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 5006/15423 [4:19:08<8:59:15,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 5007/15423 [4:19:10<8:59:08,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 5007/15423 [4:19:10<8:59:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 5008/15423 [4:19:13<8:59:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 5008/15423 [4:19:13<8:59:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 5009/15423 [4:19:17<8:59:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 5009/15423 [4:19:17<8:59:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 5010/15423 [4:19:21<8:59:03,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 5010/15423 [4:19:21<8:59:03,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 5011/15423 [4:19:23<8:58:57,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 5011/15423 [4:19:23<8:58:57,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  32%|▎| 5012/15423 [4:19:25<8:58:52,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  32%|▎| 5012/15423 [4:19:25<8:58:52,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5013/15423 [4:19:27<8:58:46,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5013/15423 [4:19:27<8:58:46,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5014/15423 [4:19:30<8:58:44,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5014/15423 [4:19:30<8:58:44,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5015/15423 [4:19:32<8:58:39,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5015/15423 [4:19:32<8:58:39,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5016/15423 [4:19:34<8:58:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5016/15423 [4:19:34<8:58:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5017/15423 [4:19:35<8:58:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5017/15423 [4:19:35<8:58:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5018/15423 [4:19:35<8:58:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5018/15423 [4:19:35<8:58:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5019/15423 [4:19:39<8:58:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5019/15423 [4:19:39<8:58:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5020/15423 [4:19:40<8:58:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5020/15423 [4:19:40<8:58:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5021/15423 [4:19:41<8:58:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5021/15423 [4:19:41<8:58:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5022/15423 [4:19:46<8:58:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5022/15423 [4:19:46<8:58:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5023/15423 [4:19:47<8:57:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5023/15423 [4:19:47<8:57:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5024/15423 [4:19:54<8:57:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5024/15423 [4:19:54<8:57:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5025/15423 [4:19:57<8:57:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5025/15423 [4:19:57<8:57:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5026/15423 [4:19:58<8:57:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5026/15423 [4:19:58<8:57:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5027/15423 [4:20:00<8:57:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5027/15423 [4:20:00<8:57:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5028/15423 [4:20:03<8:57:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5028/15423 [4:20:03<8:57:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5029/15423 [4:20:05<8:57:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5029/15423 [4:20:05<8:57:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5030/15423 [4:20:07<8:57:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5030/15423 [4:20:07<8:57:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5031/15423 [4:20:09<8:57:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5031/15423 [4:20:09<8:57:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5032/15423 [4:20:12<8:57:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5032/15423 [4:20:12<8:57:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5033/15423 [4:20:15<8:57:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5033/15423 [4:20:15<8:57:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5034/15423 [4:20:18<8:57:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5034/15423 [4:20:18<8:57:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5035/15423 [4:20:19<8:57:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5035/15423 [4:20:19<8:57:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5036/15423 [4:20:22<8:57:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5036/15423 [4:20:22<8:57:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5037/15423 [4:20:25<8:56:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5037/15423 [4:20:25<8:56:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5038/15423 [4:20:28<8:56:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5038/15423 [4:20:28<8:56:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5039/15423 [4:20:30<8:56:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5039/15423 [4:20:30<8:56:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5040/15423 [4:20:32<8:56:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5040/15423 [4:20:32<8:56:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5041/15423 [4:20:33<8:56:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5041/15423 [4:20:33<8:56:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5042/15423 [4:20:36<8:56:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5042/15423 [4:20:36<8:56:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5043/15423 [4:20:40<8:56:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5043/15423 [4:20:40<8:56:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5044/15423 [4:20:44<8:56:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5044/15423 [4:20:44<8:56:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5045/15423 [4:20:46<8:56:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5045/15423 [4:20:46<8:56:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5046/15423 [4:20:51<8:56:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5046/15423 [4:20:51<8:56:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5047/15423 [4:20:54<8:56:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5047/15423 [4:20:54<8:56:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5048/15423 [4:20:58<8:56:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5048/15423 [4:20:58<8:56:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5049/15423 [4:20:59<8:56:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5049/15423 [4:20:59<8:56:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5050/15423 [4:21:01<8:56:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5050/15423 [4:21:01<8:56:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5051/15423 [4:21:02<8:56:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5051/15423 [4:21:02<8:56:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5052/15423 [4:21:04<8:55:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5052/15423 [4:21:04<8:55:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5053/15423 [4:21:06<8:55:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5053/15423 [4:21:06<8:55:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5054/15423 [4:21:09<8:55:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5054/15423 [4:21:09<8:55:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5055/15423 [4:21:11<8:55:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5055/15423 [4:21:11<8:55:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5056/15423 [4:21:32<8:56:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5056/15423 [4:21:32<8:56:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5057/15423 [4:21:32<8:56:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5057/15423 [4:21:32<8:56:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5058/15423 [4:21:36<8:56:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5058/15423 [4:21:36<8:56:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5059/15423 [4:21:37<8:55:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5059/15423 [4:21:37<8:55:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5060/15423 [4:21:41<8:55:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5060/15423 [4:21:41<8:55:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5061/15423 [4:21:42<8:55:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5061/15423 [4:21:42<8:55:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5062/15423 [4:21:45<8:55:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5062/15423 [4:21:45<8:55:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5063/15423 [4:21:46<8:55:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5063/15423 [4:21:46<8:55:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5064/15423 [4:21:50<8:55:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5064/15423 [4:21:50<8:55:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5065/15423 [4:21:51<8:55:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5065/15423 [4:21:51<8:55:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5066/15423 [4:21:53<8:55:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5066/15423 [4:21:53<8:55:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5067/15423 [4:21:58<8:55:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5067/15423 [4:21:58<8:55:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5068/15423 [4:22:00<8:55:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5068/15423 [4:22:00<8:55:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5069/15423 [4:22:03<8:55:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5069/15423 [4:22:03<8:55:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5070/15423 [4:22:06<8:55:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5070/15423 [4:22:06<8:55:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5071/15423 [4:22:07<8:55:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5071/15423 [4:22:07<8:55:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5072/15423 [4:22:11<8:55:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5072/15423 [4:22:11<8:55:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5073/15423 [4:22:13<8:55:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5073/15423 [4:22:13<8:55:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5074/15423 [4:22:14<8:54:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5074/15423 [4:22:14<8:54:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5075/15423 [4:22:15<8:54:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5075/15423 [4:22:15<8:54:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5076/15423 [4:22:19<8:54:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5076/15423 [4:22:19<8:54:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5077/15423 [4:22:20<8:54:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5077/15423 [4:22:20<8:54:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5078/15423 [4:22:24<8:54:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5078/15423 [4:22:24<8:54:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5079/15423 [4:22:28<8:54:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5079/15423 [4:22:28<8:54:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5080/15423 [4:22:31<8:54:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5080/15423 [4:22:31<8:54:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5081/15423 [4:22:33<8:54:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5081/15423 [4:22:33<8:54:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5082/15423 [4:22:35<8:54:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5082/15423 [4:22:35<8:54:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5083/15423 [4:22:37<8:54:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5083/15423 [4:22:37<8:54:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5084/15423 [4:22:40<8:54:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5084/15423 [4:22:40<8:54:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5085/15423 [4:22:42<8:54:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5085/15423 [4:22:42<8:54:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5086/15423 [4:22:44<8:54:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5086/15423 [4:22:44<8:54:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5087/15423 [4:22:47<8:53:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5087/15423 [4:22:47<8:53:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5088/15423 [4:23:09<8:54:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5088/15423 [4:23:09<8:54:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5089/15423 [4:23:11<8:54:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5089/15423 [4:23:11<8:54:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5090/15423 [4:23:13<8:54:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5090/15423 [4:23:13<8:54:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5091/15423 [4:23:17<8:54:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5091/15423 [4:23:17<8:54:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5092/15423 [4:23:21<8:54:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5092/15423 [4:23:21<8:54:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5093/15423 [4:23:25<8:54:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5093/15423 [4:23:25<8:54:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5094/15423 [4:23:28<8:54:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5094/15423 [4:23:28<8:54:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5095/15423 [4:23:33<8:54:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5095/15423 [4:23:33<8:54:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5096/15423 [4:23:36<8:54:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5096/15423 [4:23:36<8:54:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5097/15423 [4:23:39<8:54:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5097/15423 [4:23:39<8:54:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5098/15423 [4:23:42<8:54:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5098/15423 [4:23:42<8:54:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5099/15423 [4:23:45<8:54:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5099/15423 [4:23:45<8:54:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5100/15423 [4:23:49<8:54:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5100/15423 [4:23:49<8:54:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5101/15423 [4:23:51<8:53:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5101/15423 [4:23:51<8:53:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5102/15423 [4:23:52<8:53:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5102/15423 [4:23:52<8:53:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5103/15423 [4:23:54<8:53:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5103/15423 [4:23:54<8:53:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5104/15423 [4:23:56<8:53:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5104/15423 [4:23:56<8:53:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5105/15423 [4:24:00<8:53:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5105/15423 [4:24:00<8:53:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5106/15423 [4:24:01<8:53:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5106/15423 [4:24:01<8:53:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5107/15423 [4:24:03<8:53:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5107/15423 [4:24:03<8:53:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5108/15423 [4:24:07<8:53:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5108/15423 [4:24:07<8:53:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5109/15423 [4:24:08<8:53:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5109/15423 [4:24:08<8:53:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5110/15423 [4:24:12<8:53:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5110/15423 [4:24:12<8:53:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5111/15423 [4:24:16<8:53:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5111/15423 [4:24:16<8:53:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5112/15423 [4:24:20<8:53:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5112/15423 [4:24:20<8:53:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5113/15423 [4:24:21<8:53:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5113/15423 [4:24:21<8:53:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5114/15423 [4:24:22<8:52:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5114/15423 [4:24:22<8:52:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5115/15423 [4:24:24<8:52:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5115/15423 [4:24:24<8:52:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5116/15423 [4:24:26<8:52:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5116/15423 [4:24:26<8:52:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5117/15423 [4:24:29<8:52:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5117/15423 [4:24:29<8:52:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5118/15423 [4:24:31<8:52:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5118/15423 [4:24:31<8:52:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5119/15423 [4:24:35<8:52:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5119/15423 [4:24:35<8:52:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5120/15423 [4:24:42<8:52:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5120/15423 [4:24:42<8:52:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5121/15423 [4:24:45<8:52:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5121/15423 [4:24:45<8:52:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5122/15423 [4:24:47<8:52:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5122/15423 [4:24:47<8:52:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5123/15423 [4:24:49<8:52:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5123/15423 [4:24:49<8:52:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5124/15423 [4:24:50<8:52:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5124/15423 [4:24:50<8:52:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5125/15423 [4:24:53<8:52:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5125/15423 [4:24:53<8:52:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5126/15423 [4:24:56<8:52:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5126/15423 [4:24:56<8:52:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5127/15423 [4:24:57<8:52:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5127/15423 [4:24:57<8:52:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5128/15423 [4:25:01<8:52:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5128/15423 [4:25:01<8:52:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5129/15423 [4:25:02<8:51:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5129/15423 [4:25:02<8:51:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5130/15423 [4:25:04<8:51:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5130/15423 [4:25:04<8:51:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5131/15423 [4:25:08<8:51:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5131/15423 [4:25:08<8:51:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5132/15423 [4:25:13<8:51:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5132/15423 [4:25:13<8:51:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5133/15423 [4:25:16<8:51:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5133/15423 [4:25:16<8:51:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5134/15423 [4:25:19<8:51:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5134/15423 [4:25:19<8:51:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5135/15423 [4:25:20<8:51:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5135/15423 [4:25:20<8:51:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5136/15423 [4:25:23<8:51:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5136/15423 [4:25:23<8:51:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5137/15423 [4:25:24<8:51:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5137/15423 [4:25:24<8:51:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5138/15423 [4:25:26<8:51:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5138/15423 [4:25:26<8:51:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5139/15423 [4:25:29<8:51:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5139/15423 [4:25:29<8:51:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5140/15423 [4:25:32<8:51:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5140/15423 [4:25:32<8:51:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5141/15423 [4:25:35<8:51:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5141/15423 [4:25:35<8:51:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5142/15423 [4:25:39<8:51:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5142/15423 [4:25:39<8:51:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5143/15423 [4:25:42<8:51:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5143/15423 [4:25:42<8:51:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5144/15423 [4:25:44<8:51:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5144/15423 [4:25:44<8:51:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5145/15423 [4:25:48<8:51:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5145/15423 [4:25:48<8:51:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5146/15423 [4:25:50<8:50:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5146/15423 [4:25:50<8:50:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5147/15423 [4:25:53<8:50:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5147/15423 [4:25:53<8:50:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5148/15423 [4:25:56<8:50:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5148/15423 [4:25:56<8:50:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5149/15423 [4:25:57<8:50:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5149/15423 [4:25:57<8:50:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5150/15423 [4:26:01<8:50:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5150/15423 [4:26:01<8:50:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5151/15423 [4:26:02<8:50:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5151/15423 [4:26:02<8:50:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5152/15423 [4:26:20<8:50:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5152/15423 [4:26:20<8:50:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5153/15423 [4:26:24<8:50:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5153/15423 [4:26:24<8:50:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5154/15423 [4:26:28<8:50:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5154/15423 [4:26:28<8:50:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5155/15423 [4:26:32<8:50:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5155/15423 [4:26:32<8:50:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5156/15423 [4:26:36<8:50:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5156/15423 [4:26:36<8:50:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5157/15423 [4:26:39<8:50:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5157/15423 [4:26:39<8:50:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5158/15423 [4:26:41<8:50:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5158/15423 [4:26:41<8:50:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5159/15423 [4:26:46<8:50:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5159/15423 [4:26:46<8:50:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5160/15423 [4:26:48<8:50:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5160/15423 [4:26:48<8:50:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5161/15423 [4:26:50<8:50:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5161/15423 [4:26:50<8:50:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5162/15423 [4:26:53<8:50:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5162/15423 [4:26:53<8:50:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5163/15423 [4:26:58<8:50:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5163/15423 [4:26:58<8:50:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5164/15423 [4:26:58<8:50:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5164/15423 [4:26:58<8:50:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5165/15423 [4:27:01<8:50:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5165/15423 [4:27:01<8:50:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  33%|▎| 5166/15423 [4:27:02<8:50:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  33%|▎| 5166/15423 [4:27:02<8:50:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5167/15423 [4:27:06<8:50:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5167/15423 [4:27:06<8:50:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5168/15423 [4:27:10<8:50:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5168/15423 [4:27:10<8:50:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5169/15423 [4:27:13<8:50:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5169/15423 [4:27:13<8:50:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5170/15423 [4:27:17<8:50:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5170/15423 [4:27:17<8:50:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5171/15423 [4:27:19<8:49:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5171/15423 [4:27:19<8:49:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5172/15423 [4:27:23<8:49:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5172/15423 [4:27:23<8:49:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5173/15423 [4:27:28<8:49:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5173/15423 [4:27:28<8:49:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5174/15423 [4:27:29<8:49:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5174/15423 [4:27:29<8:49:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5175/15423 [4:27:32<8:49:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5175/15423 [4:27:32<8:49:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5176/15423 [4:27:34<8:49:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5176/15423 [4:27:34<8:49:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5177/15423 [4:27:39<8:49:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5177/15423 [4:27:39<8:49:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5178/15423 [4:27:39<8:49:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5178/15423 [4:27:39<8:49:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5179/15423 [4:27:43<8:49:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5179/15423 [4:27:43<8:49:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5180/15423 [4:27:43<8:49:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5180/15423 [4:27:43<8:49:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5181/15423 [4:27:46<8:49:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5181/15423 [4:27:46<8:49:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5182/15423 [4:27:49<8:49:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5182/15423 [4:27:49<8:49:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5183/15423 [4:27:49<8:49:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5183/15423 [4:27:49<8:49:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5184/15423 [4:28:00<8:49:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5184/15423 [4:28:00<8:49:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5185/15423 [4:28:04<8:49:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5185/15423 [4:28:04<8:49:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5186/15423 [4:28:06<8:49:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5186/15423 [4:28:06<8:49:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5187/15423 [4:28:07<8:49:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5187/15423 [4:28:07<8:49:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5188/15423 [4:28:10<8:49:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5188/15423 [4:28:10<8:49:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5189/15423 [4:28:11<8:48:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5189/15423 [4:28:11<8:48:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5190/15423 [4:28:13<8:48:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5190/15423 [4:28:13<8:48:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5191/15423 [4:28:14<8:48:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5191/15423 [4:28:14<8:48:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5192/15423 [4:28:16<8:48:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5192/15423 [4:28:16<8:48:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5193/15423 [4:28:20<8:48:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5193/15423 [4:28:20<8:48:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5194/15423 [4:28:24<8:48:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5194/15423 [4:28:24<8:48:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5195/15423 [4:28:26<8:48:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5195/15423 [4:28:26<8:48:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5196/15423 [4:28:28<8:48:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5196/15423 [4:28:28<8:48:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5197/15423 [4:28:32<8:48:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5197/15423 [4:28:32<8:48:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5198/15423 [4:28:34<8:48:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5198/15423 [4:28:34<8:48:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5199/15423 [4:28:37<8:48:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5199/15423 [4:28:37<8:48:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5200/15423 [4:28:40<8:48:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5200/15423 [4:28:40<8:48:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5201/15423 [4:28:43<8:48:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5201/15423 [4:28:43<8:48:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5202/15423 [4:28:47<8:48:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5202/15423 [4:28:47<8:48:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5203/15423 [4:28:51<8:48:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5203/15423 [4:28:51<8:48:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5204/15423 [4:28:52<8:47:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5204/15423 [4:28:52<8:47:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5205/15423 [4:28:56<8:47:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5205/15423 [4:28:56<8:47:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5206/15423 [4:28:57<8:47:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5206/15423 [4:28:57<8:47:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5207/15423 [4:29:01<8:47:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5207/15423 [4:29:01<8:47:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5208/15423 [4:29:02<8:47:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5208/15423 [4:29:02<8:47:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5209/15423 [4:29:07<8:47:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5209/15423 [4:29:07<8:47:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5210/15423 [4:29:09<8:47:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5210/15423 [4:29:09<8:47:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5211/15423 [4:29:13<8:47:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5211/15423 [4:29:13<8:47:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5212/15423 [4:29:16<8:47:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5212/15423 [4:29:16<8:47:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5213/15423 [4:29:20<8:47:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5213/15423 [4:29:20<8:47:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5214/15423 [4:29:24<8:47:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5214/15423 [4:29:24<8:47:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5215/15423 [4:29:29<8:47:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5215/15423 [4:29:29<8:47:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5216/15423 [4:29:39<8:47:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5216/15423 [4:29:39<8:47:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5217/15423 [4:29:40<8:47:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5217/15423 [4:29:40<8:47:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5218/15423 [4:29:42<8:47:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5218/15423 [4:29:42<8:47:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5219/15423 [4:29:45<8:47:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5219/15423 [4:29:45<8:47:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5220/15423 [4:29:49<8:47:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5220/15423 [4:29:49<8:47:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5221/15423 [4:29:53<8:47:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5221/15423 [4:29:53<8:47:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5222/15423 [4:29:53<8:47:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5222/15423 [4:29:53<8:47:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5223/15423 [4:29:57<8:47:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5223/15423 [4:29:57<8:47:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5224/15423 [4:30:00<8:47:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5224/15423 [4:30:00<8:47:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5225/15423 [4:30:03<8:47:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5225/15423 [4:30:03<8:47:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5226/15423 [4:30:05<8:47:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5226/15423 [4:30:05<8:47:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5227/15423 [4:30:07<8:46:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5227/15423 [4:30:07<8:46:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5228/15423 [4:30:08<8:46:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5228/15423 [4:30:08<8:46:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5229/15423 [4:30:09<8:46:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5229/15423 [4:30:09<8:46:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5230/15423 [4:30:12<8:46:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5230/15423 [4:30:12<8:46:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5231/15423 [4:30:13<8:46:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5231/15423 [4:30:13<8:46:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5232/15423 [4:30:16<8:46:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5232/15423 [4:30:16<8:46:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5233/15423 [4:30:16<8:46:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5233/15423 [4:30:16<8:46:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5234/15423 [4:30:19<8:46:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5234/15423 [4:30:19<8:46:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5235/15423 [4:30:23<8:46:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5235/15423 [4:30:23<8:46:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5236/15423 [4:30:24<8:46:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5236/15423 [4:30:24<8:46:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5237/15423 [4:30:26<8:46:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5237/15423 [4:30:26<8:46:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5238/15423 [4:30:28<8:45:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5238/15423 [4:30:28<8:45:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5239/15423 [4:30:33<8:45:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5239/15423 [4:30:33<8:45:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5240/15423 [4:30:37<8:45:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5240/15423 [4:30:37<8:45:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5241/15423 [4:30:40<8:45:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5241/15423 [4:30:40<8:45:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5242/15423 [4:30:45<8:45:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5242/15423 [4:30:45<8:45:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5243/15423 [4:30:46<8:45:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5243/15423 [4:30:46<8:45:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5244/15423 [4:30:51<8:45:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5244/15423 [4:30:51<8:45:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5245/15423 [4:30:53<8:45:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5245/15423 [4:30:53<8:45:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5246/15423 [4:30:56<8:45:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5246/15423 [4:30:56<8:45:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5247/15423 [4:30:59<8:45:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5247/15423 [4:30:59<8:45:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5248/15423 [4:31:13<8:45:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5248/15423 [4:31:13<8:45:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5249/15423 [4:31:15<8:45:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5249/15423 [4:31:15<8:45:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5250/15423 [4:31:15<8:45:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5250/15423 [4:31:15<8:45:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5251/15423 [4:31:18<8:45:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5251/15423 [4:31:18<8:45:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5252/15423 [4:31:19<8:45:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5252/15423 [4:31:19<8:45:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5253/15423 [4:31:21<8:45:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5253/15423 [4:31:21<8:45:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5254/15423 [4:31:23<8:45:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5254/15423 [4:31:23<8:45:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5255/15423 [4:31:28<8:45:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5255/15423 [4:31:28<8:45:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5256/15423 [4:31:29<8:45:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5256/15423 [4:31:29<8:45:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5257/15423 [4:31:33<8:45:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5257/15423 [4:31:33<8:45:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5258/15423 [4:31:36<8:45:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5258/15423 [4:31:36<8:45:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5259/15423 [4:31:40<8:45:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5259/15423 [4:31:40<8:45:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5260/15423 [4:31:44<8:45:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5260/15423 [4:31:44<8:45:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5261/15423 [4:31:46<8:44:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5261/15423 [4:31:46<8:44:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5262/15423 [4:31:49<8:44:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5262/15423 [4:31:49<8:44:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5263/15423 [4:31:53<8:44:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5263/15423 [4:31:53<8:44:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5264/15423 [4:31:56<8:44:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5264/15423 [4:31:56<8:44:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5265/15423 [4:32:00<8:44:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5265/15423 [4:32:00<8:44:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5266/15423 [4:32:03<8:44:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5266/15423 [4:32:03<8:44:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5267/15423 [4:32:08<8:44:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5267/15423 [4:32:08<8:44:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5268/15423 [4:32:09<8:44:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5268/15423 [4:32:09<8:44:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5269/15423 [4:32:10<8:44:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|��| 5269/15423 [4:32:10<8:44:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5270/15423 [4:32:14<8:44:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5270/15423 [4:32:14<8:44:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5271/15423 [4:32:16<8:44:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5271/15423 [4:32:16<8:44:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5272/15423 [4:32:19<8:44:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5272/15423 [4:32:19<8:44:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5273/15423 [4:32:20<8:44:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5273/15423 [4:32:20<8:44:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5274/15423 [4:32:24<8:44:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5274/15423 [4:32:24<8:44:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5275/15423 [4:32:27<8:44:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5275/15423 [4:32:27<8:44:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5276/15423 [4:32:31<8:44:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5276/15423 [4:32:31<8:44:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5277/15423 [4:32:34<8:44:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5277/15423 [4:32:34<8:44:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5278/15423 [4:32:37<8:44:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5278/15423 [4:32:37<8:44:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5279/15423 [4:32:39<8:43:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5279/15423 [4:32:39<8:43:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5280/15423 [4:33:00<8:44:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5280/15423 [4:33:00<8:44:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5281/15423 [4:33:03<8:44:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5281/15423 [4:33:03<8:44:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5282/15423 [4:33:03<8:44:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5282/15423 [4:33:03<8:44:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5283/15423 [4:33:07<8:44:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5283/15423 [4:33:07<8:44:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5284/15423 [4:33:11<8:44:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5284/15423 [4:33:11<8:44:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5285/15423 [4:33:15<8:44:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5285/15423 [4:33:15<8:44:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5286/15423 [4:33:19<8:44:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5286/15423 [4:33:19<8:44:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5287/15423 [4:33:21<8:44:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5287/15423 [4:33:21<8:44:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5288/15423 [4:33:26<8:44:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5288/15423 [4:33:26<8:44:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5289/15423 [4:33:28<8:43:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5289/15423 [4:33:28<8:43:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5290/15423 [4:33:29<8:43:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5290/15423 [4:33:29<8:43:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5291/15423 [4:33:30<8:43:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5291/15423 [4:33:30<8:43:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5292/15423 [4:33:32<8:43:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5292/15423 [4:33:32<8:43:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5293/15423 [4:33:36<8:43:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5293/15423 [4:33:36<8:43:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5294/15423 [4:33:37<8:43:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5294/15423 [4:33:37<8:43:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5295/15423 [4:33:37<8:43:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5295/15423 [4:33:37<8:43:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5296/15423 [4:33:41<8:43:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5296/15423 [4:33:41<8:43:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5297/15423 [4:33:42<8:43:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5297/15423 [4:33:42<8:43:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5298/15423 [4:33:45<8:43:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5298/15423 [4:33:45<8:43:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5299/15423 [4:33:47<8:43:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5299/15423 [4:33:47<8:43:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5300/15423 [4:33:49<8:42:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5300/15423 [4:33:49<8:42:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5301/15423 [4:33:53<8:42:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5301/15423 [4:33:53<8:42:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5302/15423 [4:33:57<8:42:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5302/15423 [4:33:57<8:42:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5303/15423 [4:33:58<8:42:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5303/15423 [4:33:58<8:42:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5304/15423 [4:34:00<8:42:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5304/15423 [4:34:00<8:42:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5305/15423 [4:34:04<8:42:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5305/15423 [4:34:04<8:42:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5306/15423 [4:34:07<8:42:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5306/15423 [4:34:07<8:42:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5307/15423 [4:34:12<8:42:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5307/15423 [4:34:12<8:42:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5308/15423 [4:34:16<8:42:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5308/15423 [4:34:16<8:42:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5309/15423 [4:34:18<8:42:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5309/15423 [4:34:18<8:42:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5310/15423 [4:34:21<8:42:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5310/15423 [4:34:21<8:42:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5311/15423 [4:34:25<8:42:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5311/15423 [4:34:25<8:42:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5312/15423 [4:34:39<8:42:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5312/15423 [4:34:39<8:42:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5313/15423 [4:34:43<8:42:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5313/15423 [4:34:43<8:42:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5314/15423 [4:34:45<8:42:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5314/15423 [4:34:45<8:42:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5315/15423 [4:34:50<8:42:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5315/15423 [4:34:50<8:42:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5316/15423 [4:34:51<8:42:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5316/15423 [4:34:51<8:42:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5317/15423 [4:34:56<8:42:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5317/15423 [4:34:56<8:42:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5318/15423 [4:34:56<8:42:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5318/15423 [4:34:56<8:42:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5319/15423 [4:34:58<8:42:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5319/15423 [4:34:58<8:42:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  34%|▎| 5320/15423 [4:34:59<8:42:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  34%|▎| 5320/15423 [4:34:59<8:42:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5321/15423 [4:35:01<8:42:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5321/15423 [4:35:01<8:42:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5322/15423 [4:35:02<8:42:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5322/15423 [4:35:02<8:42:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5323/15423 [4:35:05<8:41:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5323/15423 [4:35:05<8:41:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5324/15423 [4:35:08<8:41:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5324/15423 [4:35:08<8:41:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5325/15423 [4:35:11<8:41:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5325/15423 [4:35:11<8:41:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5326/15423 [4:35:12<8:41:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5326/15423 [4:35:12<8:41:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5327/15423 [4:35:14<8:41:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5327/15423 [4:35:14<8:41:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5328/15423 [4:35:14<8:41:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5328/15423 [4:35:14<8:41:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5329/15423 [4:35:16<8:41:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5329/15423 [4:35:16<8:41:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5330/15423 [4:35:18<8:41:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5330/15423 [4:35:18<8:41:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5331/15423 [4:35:20<8:41:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5331/15423 [4:35:20<8:41:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5332/15423 [4:35:22<8:41:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5332/15423 [4:35:22<8:41:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5333/15423 [4:35:23<8:41:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5333/15423 [4:35:23<8:41:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5334/15423 [4:35:24<8:40:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5334/15423 [4:35:24<8:40:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5335/15423 [4:35:28<8:40:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5335/15423 [4:35:28<8:40:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5336/15423 [4:35:33<8:40:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5336/15423 [4:35:33<8:40:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5337/15423 [4:35:34<8:40:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5337/15423 [4:35:34<8:40:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5338/15423 [4:35:36<8:40:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5338/15423 [4:35:36<8:40:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5339/15423 [4:35:38<8:40:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5339/15423 [4:35:38<8:40:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5340/15423 [4:35:40<8:40:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5340/15423 [4:35:40<8:40:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5341/15423 [4:35:42<8:40:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5341/15423 [4:35:42<8:40:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5342/15423 [4:35:44<8:40:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5342/15423 [4:35:44<8:40:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5343/15423 [4:35:46<8:40:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5343/15423 [4:35:46<8:40:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5344/15423 [4:36:10<8:40:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5344/15423 [4:36:10<8:40:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5345/15423 [4:36:12<8:40:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5345/15423 [4:36:12<8:40:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5346/15423 [4:36:14<8:40:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5346/15423 [4:36:14<8:40:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5347/15423 [4:36:17<8:40:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5347/15423 [4:36:17<8:40:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5348/15423 [4:36:20<8:40:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5348/15423 [4:36:20<8:40:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5349/15423 [4:36:23<8:40:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5349/15423 [4:36:23<8:40:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5350/15423 [4:36:24<8:40:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5350/15423 [4:36:24<8:40:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5351/15423 [4:36:25<8:40:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5351/15423 [4:36:25<8:40:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5352/15423 [4:36:29<8:40:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5352/15423 [4:36:29<8:40:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5353/15423 [4:36:30<8:40:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5353/15423 [4:36:30<8:40:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5354/15423 [4:36:32<8:40:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5354/15423 [4:36:32<8:40:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5355/15423 [4:36:35<8:40:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5355/15423 [4:36:35<8:40:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5356/15423 [4:36:39<8:40:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5356/15423 [4:36:39<8:40:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5357/15423 [4:36:43<8:39:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5357/15423 [4:36:43<8:39:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5358/15423 [4:36:46<8:39:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5358/15423 [4:36:46<8:39:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5359/15423 [4:36:48<8:39:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5359/15423 [4:36:48<8:39:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5360/15423 [4:36:53<8:39:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5360/15423 [4:36:53<8:39:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5361/15423 [4:36:55<8:39:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5361/15423 [4:36:55<8:39:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5362/15423 [4:36:58<8:39:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5362/15423 [4:36:58<8:39:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5363/15423 [4:37:00<8:39:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5363/15423 [4:37:00<8:39:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5364/15423 [4:37:01<8:39:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5364/15423 [4:37:01<8:39:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5365/15423 [4:37:02<8:39:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5365/15423 [4:37:02<8:39:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5366/15423 [4:37:05<8:39:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5366/15423 [4:37:05<8:39:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5367/15423 [4:37:10<8:39:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5367/15423 [4:37:10<8:39:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5368/15423 [4:37:14<8:39:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5368/15423 [4:37:14<8:39:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5369/15423 [4:37:15<8:39:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5369/15423 [4:37:15<8:39:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5370/15423 [4:37:20<8:39:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5370/15423 [4:37:20<8:39:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5371/15423 [4:37:21<8:39:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5371/15423 [4:37:21<8:39:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5372/15423 [4:37:25<8:39:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5372/15423 [4:37:25<8:39:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5373/15423 [4:37:28<8:39:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5373/15423 [4:37:28<8:39:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5374/15423 [4:37:32<8:38:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5374/15423 [4:37:32<8:38:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5375/15423 [4:37:37<8:38:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5375/15423 [4:37:37<8:38:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5376/15423 [4:37:45<8:39:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5376/15423 [4:37:45<8:39:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5377/15423 [4:37:48<8:39:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5377/15423 [4:37:48<8:39:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5378/15423 [4:37:50<8:38:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5378/15423 [4:37:50<8:38:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5379/15423 [4:37:52<8:38:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5379/15423 [4:37:52<8:38:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5380/15423 [4:37:55<8:38:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5380/15423 [4:37:55<8:38:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5381/15423 [4:37:58<8:38:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5381/15423 [4:37:58<8:38:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5382/15423 [4:38:00<8:38:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5382/15423 [4:38:00<8:38:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5383/15423 [4:38:02<8:38:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5383/15423 [4:38:02<8:38:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5384/15423 [4:38:05<8:38:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5384/15423 [4:38:05<8:38:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5385/15423 [4:38:06<8:38:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5385/15423 [4:38:06<8:38:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5386/15423 [4:38:08<8:38:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5386/15423 [4:38:08<8:38:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5387/15423 [4:38:11<8:38:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5387/15423 [4:38:11<8:38:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5388/15423 [4:38:11<8:38:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5388/15423 [4:38:11<8:38:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5389/15423 [4:38:13<8:38:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5389/15423 [4:38:13<8:38:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5390/15423 [4:38:17<8:38:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5390/15423 [4:38:17<8:38:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5391/15423 [4:38:21<8:37:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5391/15423 [4:38:21<8:37:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5392/15423 [4:38:22<8:37:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5392/15423 [4:38:22<8:37:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5393/15423 [4:38:26<8:37:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5393/15423 [4:38:26<8:37:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5394/15423 [4:38:27<8:37:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5394/15423 [4:38:27<8:37:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5395/15423 [4:38:31<8:37:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5395/15423 [4:38:31<8:37:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5396/15423 [4:38:33<8:37:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5396/15423 [4:38:33<8:37:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5397/15423 [4:38:34<8:37:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5397/15423 [4:38:34<8:37:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5398/15423 [4:38:38<8:37:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5398/15423 [4:38:38<8:37:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5399/15423 [4:38:42<8:37:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5399/15423 [4:38:42<8:37:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5400/15423 [4:38:43<8:37:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5400/15423 [4:38:43<8:37:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5401/15423 [4:38:44<8:37:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5401/15423 [4:38:44<8:37:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5402/15423 [4:38:45<8:37:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5402/15423 [4:38:45<8:37:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5403/15423 [4:38:47<8:37:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5403/15423 [4:38:47<8:37:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5404/15423 [4:38:51<8:36:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5404/15423 [4:38:51<8:36:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5405/15423 [4:38:54<8:36:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5405/15423 [4:38:54<8:36:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5406/15423 [4:38:58<8:36:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5406/15423 [4:38:58<8:36:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5407/15423 [4:39:00<8:36:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5407/15423 [4:39:00<8:36:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5408/15423 [4:39:23<8:37:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5408/15423 [4:39:23<8:37:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5409/15423 [4:39:25<8:37:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5409/15423 [4:39:25<8:37:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5410/15423 [4:39:27<8:37:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5410/15423 [4:39:27<8:37:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5411/15423 [4:39:30<8:37:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5411/15423 [4:39:30<8:37:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5412/15423 [4:39:34<8:37:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5412/15423 [4:39:34<8:37:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5413/15423 [4:39:35<8:37:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5413/15423 [4:39:35<8:37:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5414/15423 [4:39:39<8:37:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5414/15423 [4:39:39<8:37:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5415/15423 [4:39:41<8:36:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5415/15423 [4:39:41<8:36:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5416/15423 [4:39:42<8:36:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5416/15423 [4:39:42<8:36:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5417/15423 [4:39:44<8:36:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5417/15423 [4:39:44<8:36:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5418/15423 [4:39:45<8:36:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5418/15423 [4:39:45<8:36:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5419/15423 [4:39:47<8:36:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5419/15423 [4:39:47<8:36:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5420/15423 [4:39:49<8:36:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5420/15423 [4:39:49<8:36:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5421/15423 [4:39:50<8:36:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5421/15423 [4:39:50<8:36:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5422/15423 [4:39:52<8:36:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5422/15423 [4:39:52<8:36:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5423/15423 [4:39:56<8:36:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5423/15423 [4:39:56<8:36:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5424/15423 [4:39:59<8:36:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5424/15423 [4:39:59<8:36:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5425/15423 [4:40:01<8:36:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5425/15423 [4:40:01<8:36:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5426/15423 [4:40:05<8:36:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5426/15423 [4:40:05<8:36:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5427/15423 [4:40:08<8:36:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5427/15423 [4:40:08<8:36:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5428/15423 [4:40:12<8:35:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5428/15423 [4:40:12<8:35:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5429/15423 [4:40:13<8:35:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5429/15423 [4:40:13<8:35:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5430/15423 [4:40:16<8:35:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5430/15423 [4:40:16<8:35:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5431/15423 [4:40:19<8:35:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5431/15423 [4:40:19<8:35:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5432/15423 [4:40:24<8:35:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5432/15423 [4:40:24<8:35:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5433/15423 [4:40:25<8:35:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5433/15423 [4:40:25<8:35:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5434/15423 [4:40:29<8:35:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5434/15423 [4:40:29<8:35:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5435/15423 [4:40:30<8:35:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5435/15423 [4:40:30<8:35:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5436/15423 [4:40:31<8:35:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5436/15423 [4:40:31<8:35:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5437/15423 [4:40:32<8:35:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5437/15423 [4:40:32<8:35:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5438/15423 [4:40:36<8:35:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5438/15423 [4:40:36<8:35:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5439/15423 [4:40:36<8:35:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5439/15423 [4:40:36<8:35:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5440/15423 [4:41:10<8:35:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5440/15423 [4:41:10<8:35:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5441/15423 [4:41:15<8:35:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5441/15423 [4:41:15<8:35:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5442/15423 [4:41:16<8:35:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5442/15423 [4:41:16<8:35:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5443/15423 [4:41:20<8:35:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5443/15423 [4:41:20<8:35:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5444/15423 [4:41:25<8:35:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5444/15423 [4:41:25<8:35:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5445/15423 [4:41:26<8:35:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5445/15423 [4:41:26<8:35:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5446/15423 [4:41:28<8:35:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5446/15423 [4:41:28<8:35:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5447/15423 [4:41:31<8:35:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5447/15423 [4:41:31<8:35:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5448/15423 [4:41:34<8:35:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5448/15423 [4:41:34<8:35:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5449/15423 [4:41:34<8:35:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5449/15423 [4:41:34<8:35:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5450/15423 [4:41:38<8:35:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5450/15423 [4:41:38<8:35:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5451/15423 [4:41:42<8:35:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5451/15423 [4:41:42<8:35:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5452/15423 [4:41:42<8:35:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5452/15423 [4:41:42<8:35:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5453/15423 [4:41:46<8:35:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5453/15423 [4:41:46<8:35:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5454/15423 [4:41:48<8:35:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5454/15423 [4:41:48<8:35:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5455/15423 [4:41:50<8:34:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5455/15423 [4:41:50<8:34:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5456/15423 [4:41:52<8:34:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5456/15423 [4:41:52<8:34:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5457/15423 [4:41:54<8:34:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5457/15423 [4:41:54<8:34:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5458/15423 [4:41:57<8:34:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5458/15423 [4:41:57<8:34:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5459/15423 [4:42:01<8:34:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5459/15423 [4:42:01<8:34:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5460/15423 [4:42:03<8:34:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5460/15423 [4:42:03<8:34:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5461/15423 [4:42:06<8:34:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5461/15423 [4:42:06<8:34:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5462/15423 [4:42:06<8:34:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5462/15423 [4:42:06<8:34:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5463/15423 [4:42:11<8:34:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5463/15423 [4:42:11<8:34:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5464/15423 [4:42:12<8:34:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5464/15423 [4:42:12<8:34:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5465/15423 [4:42:16<8:34:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5465/15423 [4:42:16<8:34:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5466/15423 [4:42:20<8:34:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5466/15423 [4:42:20<8:34:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5467/15423 [4:42:23<8:34:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5467/15423 [4:42:23<8:34:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5468/15423 [4:42:26<8:34:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5468/15423 [4:42:26<8:34:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5469/15423 [4:42:30<8:34:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5469/15423 [4:42:30<8:34:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5470/15423 [4:42:33<8:34:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5470/15423 [4:42:33<8:34:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5471/15423 [4:42:35<8:34:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5471/15423 [4:42:35<8:34:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5472/15423 [4:42:48<8:34:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5472/15423 [4:42:48<8:34:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5473/15423 [4:42:50<8:34:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5473/15423 [4:42:50<8:34:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5474/15423 [4:42:52<8:34:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5474/15423 [4:42:52<8:34:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  35%|▎| 5475/15423 [4:42:54<8:34:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  35%|▎| 5475/15423 [4:42:54<8:34:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5476/15423 [4:42:56<8:33:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5476/15423 [4:42:56<8:33:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5477/15423 [4:43:00<8:33:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5477/15423 [4:43:00<8:33:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5478/15423 [4:43:01<8:33:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5478/15423 [4:43:01<8:33:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5479/15423 [4:43:02<8:33:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5479/15423 [4:43:02<8:33:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5480/15423 [4:43:06<8:33:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5480/15423 [4:43:06<8:33:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5481/15423 [4:43:07<8:33:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5481/15423 [4:43:07<8:33:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5482/15423 [4:43:12<8:33:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5482/15423 [4:43:12<8:33:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5483/15423 [4:43:15<8:33:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5483/15423 [4:43:15<8:33:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5484/15423 [4:43:17<8:33:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5484/15423 [4:43:17<8:33:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5485/15423 [4:43:21<8:33:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5485/15423 [4:43:21<8:33:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5486/15423 [4:43:23<8:33:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5486/15423 [4:43:23<8:33:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5487/15423 [4:43:26<8:33:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5487/15423 [4:43:26<8:33:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5488/15423 [4:43:28<8:33:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5488/15423 [4:43:28<8:33:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5489/15423 [4:43:30<8:33:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5489/15423 [4:43:30<8:33:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5490/15423 [4:43:33<8:33:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5490/15423 [4:43:33<8:33:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5491/15423 [4:43:36<8:32:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5491/15423 [4:43:36<8:32:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5492/15423 [4:43:39<8:32:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5492/15423 [4:43:39<8:32:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5493/15423 [4:43:44<8:32:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5493/15423 [4:43:44<8:32:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5494/15423 [4:43:46<8:32:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5494/15423 [4:43:46<8:32:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5495/15423 [4:43:50<8:32:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5495/15423 [4:43:50<8:32:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5496/15423 [4:43:51<8:32:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5496/15423 [4:43:51<8:32:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5497/15423 [4:43:54<8:32:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5497/15423 [4:43:54<8:32:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5498/15423 [4:43:55<8:32:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5498/15423 [4:43:55<8:32:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5499/15423 [4:43:57<8:32:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5499/15423 [4:43:57<8:32:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5500/15423 [4:44:00<8:32:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5500/15423 [4:44:00<8:32:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5501/15423 [4:44:04<8:32:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5501/15423 [4:44:04<8:32:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5502/15423 [4:44:06<8:32:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5502/15423 [4:44:06<8:32:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5503/15423 [4:44:11<8:32:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5503/15423 [4:44:11<8:32:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5504/15423 [4:44:35<8:32:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5504/15423 [4:44:35<8:32:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5505/15423 [4:44:36<8:32:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5505/15423 [4:44:36<8:32:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5506/15423 [4:44:39<8:32:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5506/15423 [4:44:39<8:32:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5507/15423 [4:44:41<8:32:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5507/15423 [4:44:41<8:32:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5508/15423 [4:44:44<8:32:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5508/15423 [4:44:44<8:32:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5509/15423 [4:44:47<8:32:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5509/15423 [4:44:47<8:32:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5510/15423 [4:44:49<8:32:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5510/15423 [4:44:49<8:32:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5511/15423 [4:44:50<8:32:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5511/15423 [4:44:50<8:32:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5512/15423 [4:44:52<8:32:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5512/15423 [4:44:52<8:32:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5513/15423 [4:44:54<8:32:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5513/15423 [4:44:54<8:32:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5514/15423 [4:44:57<8:32:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5514/15423 [4:44:57<8:32:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5515/15423 [4:45:00<8:32:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5515/15423 [4:45:00<8:32:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5516/15423 [4:45:03<8:31:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5516/15423 [4:45:03<8:31:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5517/15423 [4:45:06<8:31:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5517/15423 [4:45:06<8:31:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5518/15423 [4:45:07<8:31:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5518/15423 [4:45:07<8:31:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5519/15423 [4:45:08<8:31:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5519/15423 [4:45:08<8:31:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5520/15423 [4:45:10<8:31:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5520/15423 [4:45:10<8:31:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5521/15423 [4:45:14<8:31:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5521/15423 [4:45:14<8:31:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5522/15423 [4:45:17<8:31:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5522/15423 [4:45:17<8:31:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5523/15423 [4:45:22<8:31:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5523/15423 [4:45:22<8:31:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5524/15423 [4:45:26<8:31:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5524/15423 [4:45:26<8:31:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5525/15423 [4:45:27<8:31:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5525/15423 [4:45:27<8:31:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5526/15423 [4:45:30<8:31:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5526/15423 [4:45:30<8:31:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5527/15423 [4:45:33<8:31:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5527/15423 [4:45:33<8:31:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5528/15423 [4:45:36<8:31:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5528/15423 [4:45:36<8:31:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5529/15423 [4:45:41<8:31:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5529/15423 [4:45:41<8:31:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5530/15423 [4:45:43<8:31:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5530/15423 [4:45:43<8:31:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5531/15423 [4:45:47<8:31:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5531/15423 [4:45:47<8:31:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5532/15423 [4:45:47<8:30:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5532/15423 [4:45:47<8:30:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5533/15423 [4:45:50<8:30:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5533/15423 [4:45:50<8:30:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5534/15423 [4:45:54<8:30:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5534/15423 [4:45:54<8:30:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5535/15423 [4:45:58<8:30:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5535/15423 [4:45:58<8:30:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5536/15423 [4:46:17<8:31:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5536/15423 [4:46:17<8:31:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5537/15423 [4:46:21<8:31:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5537/15423 [4:46:21<8:31:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5538/15423 [4:46:25<8:31:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5538/15423 [4:46:25<8:31:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5539/15423 [4:46:27<8:31:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5539/15423 [4:46:27<8:31:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5540/15423 [4:46:31<8:31:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5540/15423 [4:46:31<8:31:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5541/15423 [4:46:34<8:31:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5541/15423 [4:46:34<8:31:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5542/15423 [4:46:37<8:31:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5542/15423 [4:46:37<8:31:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5543/15423 [4:46:41<8:30:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5543/15423 [4:46:41<8:30:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5544/15423 [4:46:43<8:30:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5544/15423 [4:46:43<8:30:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5545/15423 [4:46:47<8:30:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5545/15423 [4:46:47<8:30:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5546/15423 [4:46:49<8:30:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5546/15423 [4:46:49<8:30:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5547/15423 [4:46:52<8:30:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5547/15423 [4:46:52<8:30:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5548/15423 [4:46:54<8:30:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5548/15423 [4:46:54<8:30:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5549/15423 [4:46:58<8:30:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5549/15423 [4:46:58<8:30:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5550/15423 [4:46:59<8:30:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5550/15423 [4:46:59<8:30:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5551/15423 [4:46:59<8:30:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5551/15423 [4:46:59<8:30:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5552/15423 [4:47:01<8:30:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5552/15423 [4:47:01<8:30:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5553/15423 [4:47:04<8:30:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5553/15423 [4:47:04<8:30:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5554/15423 [4:47:05<8:30:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5554/15423 [4:47:05<8:30:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5555/15423 [4:47:10<8:30:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5555/15423 [4:47:10<8:30:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5556/15423 [4:47:11<8:30:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5556/15423 [4:47:11<8:30:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5557/15423 [4:47:13<8:29:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5557/15423 [4:47:13<8:29:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5558/15423 [4:47:16<8:29:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5558/15423 [4:47:16<8:29:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5559/15423 [4:47:18<8:29:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5559/15423 [4:47:18<8:29:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5560/15423 [4:47:22<8:29:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5560/15423 [4:47:22<8:29:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5561/15423 [4:47:24<8:29:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5561/15423 [4:47:24<8:29:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5562/15423 [4:47:26<8:29:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5562/15423 [4:47:26<8:29:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5563/15423 [4:47:27<8:29:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5563/15423 [4:47:27<8:29:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5564/15423 [4:47:30<8:29:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5564/15423 [4:47:30<8:29:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5565/15423 [4:47:33<8:29:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5565/15423 [4:47:33<8:29:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5566/15423 [4:47:36<8:29:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5566/15423 [4:47:36<8:29:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5567/15423 [4:47:38<8:29:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5567/15423 [4:47:38<8:29:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5568/15423 [4:47:59<8:29:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5568/15423 [4:47:59<8:29:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5569/15423 [4:48:00<8:29:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5569/15423 [4:48:00<8:29:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5570/15423 [4:48:02<8:29:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5570/15423 [4:48:02<8:29:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5571/15423 [4:48:05<8:29:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5571/15423 [4:48:05<8:29:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5572/15423 [4:48:06<8:29:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5572/15423 [4:48:06<8:29:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5573/15423 [4:48:07<8:29:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5573/15423 [4:48:07<8:29:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5574/15423 [4:48:09<8:29:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5574/15423 [4:48:09<8:29:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5575/15423 [4:48:12<8:29:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5575/15423 [4:48:12<8:29:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5576/15423 [4:48:16<8:29:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5576/15423 [4:48:16<8:29:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5577/15423 [4:48:18<8:28:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5577/15423 [4:48:18<8:28:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5578/15423 [4:48:20<8:28:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5578/15423 [4:48:20<8:28:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5579/15423 [4:48:20<8:28:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5579/15423 [4:48:20<8:28:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5580/15423 [4:48:24<8:28:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5580/15423 [4:48:24<8:28:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5581/15423 [4:48:26<8:28:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5581/15423 [4:48:26<8:28:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5582/15423 [4:48:28<8:28:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5582/15423 [4:48:28<8:28:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5583/15423 [4:48:31<8:28:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5583/15423 [4:48:31<8:28:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5584/15423 [4:48:33<8:28:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5584/15423 [4:48:33<8:28:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5585/15423 [4:48:36<8:28:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5585/15423 [4:48:36<8:28:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5586/15423 [4:48:39<8:28:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5586/15423 [4:48:39<8:28:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5587/15423 [4:48:39<8:28:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5587/15423 [4:48:39<8:28:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5588/15423 [4:48:41<8:28:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5588/15423 [4:48:41<8:28:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5589/15423 [4:48:45<8:28:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5589/15423 [4:48:45<8:28:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5590/15423 [4:48:49<8:28:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5590/15423 [4:48:49<8:28:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5591/15423 [4:48:53<8:28:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5591/15423 [4:48:53<8:28:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5592/15423 [4:48:55<8:27:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5592/15423 [4:48:55<8:27:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5593/15423 [4:48:57<8:27:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5593/15423 [4:48:57<8:27:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5594/15423 [4:49:00<8:27:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5594/15423 [4:49:00<8:27:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5595/15423 [4:49:03<8:27:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5595/15423 [4:49:03<8:27:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5596/15423 [4:49:07<8:27:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5596/15423 [4:49:07<8:27:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5597/15423 [4:49:11<8:27:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5597/15423 [4:49:11<8:27:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5598/15423 [4:49:12<8:27:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5598/15423 [4:49:12<8:27:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5599/15423 [4:49:14<8:27:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5599/15423 [4:49:14<8:27:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5600/15423 [4:49:43<8:28:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5600/15423 [4:49:43<8:28:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5601/15423 [4:50:08<8:28:47,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5601/15423 [4:50:08<8:28:47,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5602/15423 [4:50:08<8:28:39,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5602/15423 [4:50:08<8:28:39,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5603/15423 [4:50:12<8:28:37,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5603/15423 [4:50:12<8:28:37,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5604/15423 [4:50:16<8:28:36,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5604/15423 [4:50:16<8:28:36,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5605/15423 [4:50:20<8:28:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5605/15423 [4:50:20<8:28:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5606/15423 [4:50:22<8:28:29,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5606/15423 [4:50:22<8:28:29,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5607/15423 [4:50:24<8:28:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5607/15423 [4:50:24<8:28:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5608/15423 [4:50:26<8:28:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5608/15423 [4:50:26<8:28:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5609/15423 [4:50:29<8:28:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5609/15423 [4:50:29<8:28:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5610/15423 [4:50:30<8:28:09,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5610/15423 [4:50:30<8:28:09,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5611/15423 [4:50:34<8:28:07,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5611/15423 [4:50:34<8:28:07,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5612/15423 [4:50:36<8:28:03,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5612/15423 [4:50:36<8:28:03,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5613/15423 [4:50:38<8:27:58,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5613/15423 [4:50:38<8:27:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5614/15423 [4:50:40<8:27:52,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5614/15423 [4:50:40<8:27:52,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5615/15423 [4:50:44<8:27:50,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5615/15423 [4:50:44<8:27:50,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5616/15423 [4:50:47<8:27:48,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5616/15423 [4:50:47<8:27:48,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5617/15423 [4:50:49<8:27:42,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5617/15423 [4:50:49<8:27:42,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5618/15423 [4:50:52<8:27:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5618/15423 [4:50:52<8:27:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5619/15423 [4:50:54<8:27:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5619/15423 [4:50:54<8:27:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5620/15423 [4:50:56<8:27:29,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5620/15423 [4:50:56<8:27:29,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5621/15423 [4:50:58<8:27:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5621/15423 [4:50:58<8:27:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5622/15423 [4:51:01<8:27:20,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5622/15423 [4:51:01<8:27:20,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5623/15423 [4:51:02<8:27:13,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5623/15423 [4:51:02<8:27:13,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5624/15423 [4:51:06<8:27:12,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5624/15423 [4:51:06<8:27:12,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5625/15423 [4:51:10<8:27:11,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5625/15423 [4:51:10<8:27:11,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5626/15423 [4:51:14<8:27:09,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5626/15423 [4:51:14<8:27:09,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5627/15423 [4:51:15<8:27:03,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5627/15423 [4:51:15<8:27:03,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5628/15423 [4:51:20<8:27:02,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5628/15423 [4:51:20<8:27:02,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  36%|▎| 5629/15423 [4:51:22<8:26:58,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  36%|▎| 5629/15423 [4:51:22<8:26:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5630/15423 [4:51:26<8:26:56,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5630/15423 [4:51:26<8:26:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5631/15423 [4:51:28<8:26:51,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5631/15423 [4:51:28<8:26:51,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5632/15423 [4:51:41<8:27:06,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5632/15423 [4:51:41<8:27:06,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5633/15423 [4:51:45<8:27:03,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5633/15423 [4:51:45<8:27:03,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5634/15423 [4:51:47<8:26:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5634/15423 [4:51:47<8:26:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5635/15423 [4:51:49<8:26:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5635/15423 [4:51:49<8:26:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5636/15423 [4:51:52<8:26:50,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5636/15423 [4:51:52<8:26:50,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5637/15423 [4:51:56<8:26:49,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5637/15423 [4:51:56<8:26:49,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5638/15423 [4:52:00<8:26:46,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5638/15423 [4:52:00<8:26:46,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5639/15423 [4:52:00<8:26:39,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5639/15423 [4:52:00<8:26:39,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5640/15423 [4:52:05<8:26:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5640/15423 [4:52:05<8:26:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5641/15423 [4:52:07<8:26:34,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5641/15423 [4:52:07<8:26:34,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5642/15423 [4:52:10<8:26:30,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5642/15423 [4:52:10<8:26:30,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5643/15423 [4:52:12<8:26:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5643/15423 [4:52:12<8:26:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5644/15423 [4:52:14<8:26:21,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5644/15423 [4:52:14<8:26:21,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5645/15423 [4:52:17<8:26:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5645/15423 [4:52:17<8:26:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5646/15423 [4:52:18<8:26:10,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5646/15423 [4:52:18<8:26:10,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5647/15423 [4:52:18<8:26:02,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5647/15423 [4:52:18<8:26:02,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5648/15423 [4:52:23<8:26:01,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5648/15423 [4:52:23<8:26:01,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5649/15423 [4:52:25<8:25:58,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5649/15423 [4:52:25<8:25:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5650/15423 [4:52:26<8:25:50,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5650/15423 [4:52:26<8:25:50,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5651/15423 [4:52:28<8:25:46,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5651/15423 [4:52:28<8:25:46,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5652/15423 [4:52:29<8:25:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5652/15423 [4:52:29<8:25:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5653/15423 [4:52:30<8:25:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5653/15423 [4:52:30<8:25:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5654/15423 [4:52:33<8:25:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5654/15423 [4:52:33<8:25:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5655/15423 [4:52:34<8:25:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5655/15423 [4:52:34<8:25:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5656/15423 [4:52:37<8:25:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5656/15423 [4:52:37<8:25:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5657/15423 [4:52:39<8:25:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5657/15423 [4:52:39<8:25:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5658/15423 [4:52:40<8:25:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5658/15423 [4:52:40<8:25:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5659/15423 [4:52:42<8:25:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5659/15423 [4:52:42<8:25:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5660/15423 [4:52:43<8:24:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5660/15423 [4:52:43<8:24:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5661/15423 [4:52:44<8:24:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5661/15423 [4:52:44<8:24:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5662/15423 [4:52:48<8:24:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5662/15423 [4:52:48<8:24:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5663/15423 [4:52:49<8:24:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5663/15423 [4:52:49<8:24:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5664/15423 [4:53:13<8:25:13,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5664/15423 [4:53:13<8:25:13,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5665/15423 [4:53:17<8:25:12,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5665/15423 [4:53:17<8:25:12,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5666/15423 [4:53:22<8:25:11,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5666/15423 [4:53:22<8:25:11,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5667/15423 [4:53:25<8:25:08,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5667/15423 [4:53:25<8:25:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5668/15423 [4:53:28<8:25:04,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5668/15423 [4:53:28<8:25:04,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5669/15423 [4:53:30<8:25:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5669/15423 [4:53:30<8:25:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5670/15423 [4:53:32<8:24:55,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5670/15423 [4:53:32<8:24:55,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5671/15423 [4:53:36<8:24:52,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5671/15423 [4:53:36<8:24:52,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5672/15423 [4:53:39<8:24:50,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5672/15423 [4:53:39<8:24:50,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5673/15423 [4:53:42<8:24:47,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5673/15423 [4:53:42<8:24:47,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5674/15423 [4:53:47<8:24:46,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5674/15423 [4:53:47<8:24:46,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5675/15423 [4:53:49<8:24:42,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5675/15423 [4:53:49<8:24:42,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5676/15423 [4:53:52<8:24:39,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5676/15423 [4:53:52<8:24:39,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5677/15423 [4:53:56<8:24:37,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5677/15423 [4:53:56<8:24:37,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5678/15423 [4:53:59<8:24:34,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5678/15423 [4:53:59<8:24:34,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5679/15423 [4:54:03<8:24:32,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5679/15423 [4:54:03<8:24:32,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5680/15423 [4:54:04<8:24:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5680/15423 [4:54:04<8:24:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5681/15423 [4:54:08<8:24:24,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5681/15423 [4:54:08<8:24:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5682/15423 [4:54:13<8:24:23,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5682/15423 [4:54:13<8:24:23,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5683/15423 [4:54:17<8:24:22,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5683/15423 [4:54:17<8:24:22,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5684/15423 [4:54:20<8:24:20,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5684/15423 [4:54:20<8:24:20,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5685/15423 [4:54:23<8:24:16,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5685/15423 [4:54:23<8:24:16,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5686/15423 [4:54:25<8:24:11,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5686/15423 [4:54:25<8:24:11,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5687/15423 [4:54:28<8:24:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5687/15423 [4:54:28<8:24:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5688/15423 [4:54:32<8:24:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5688/15423 [4:54:32<8:24:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5689/15423 [4:54:34<8:24:01,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5689/15423 [4:54:34<8:24:01,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5690/15423 [4:54:37<8:23:58,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5690/15423 [4:54:37<8:23:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5691/15423 [4:54:40<8:23:54,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5691/15423 [4:54:40<8:23:54,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5692/15423 [4:54:44<8:23:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5692/15423 [4:54:44<8:23:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5693/15423 [4:54:47<8:23:50,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5693/15423 [4:54:47<8:23:50,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5694/15423 [4:54:51<8:23:49,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5694/15423 [4:54:51<8:23:49,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5695/15423 [4:54:54<8:23:45,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5695/15423 [4:54:54<8:23:45,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5696/15423 [4:55:03<8:23:52,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5696/15423 [4:55:03<8:23:52,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5697/15423 [4:55:04<8:23:45,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5697/15423 [4:55:04<8:23:45,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5698/15423 [4:55:06<8:23:39,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5698/15423 [4:55:06<8:23:39,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5699/15423 [4:55:10<8:23:39,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5699/15423 [4:55:10<8:23:39,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5700/15423 [4:55:15<8:23:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5700/15423 [4:55:15<8:23:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5701/15423 [4:55:18<8:23:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5701/15423 [4:55:18<8:23:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5702/15423 [4:55:21<8:23:31,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5702/15423 [4:55:21<8:23:31,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5703/15423 [4:55:24<8:23:29,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5703/15423 [4:55:24<8:23:29,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5704/15423 [4:55:28<8:23:27,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5704/15423 [4:55:28<8:23:27,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5705/15423 [4:55:30<8:23:22,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5705/15423 [4:55:30<8:23:22,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5706/15423 [4:55:34<8:23:21,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5706/15423 [4:55:34<8:23:21,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5707/15423 [4:55:36<8:23:15,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5707/15423 [4:55:36<8:23:15,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5708/15423 [4:55:39<8:23:12,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5708/15423 [4:55:39<8:23:12,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5709/15423 [4:55:43<8:23:10,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5709/15423 [4:55:43<8:23:10,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5710/15423 [4:55:46<8:23:06,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5710/15423 [4:55:46<8:23:06,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5711/15423 [4:55:47<8:23:01,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5711/15423 [4:55:47<8:23:01,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5712/15423 [4:55:50<8:22:56,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5712/15423 [4:55:50<8:22:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5713/15423 [4:55:53<8:22:55,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5713/15423 [4:55:53<8:22:55,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5714/15423 [4:55:56<8:22:50,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5714/15423 [4:55:56<8:22:50,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5715/15423 [4:56:00<8:22:48,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5715/15423 [4:56:00<8:22:48,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5716/15423 [4:56:00<8:22:41,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5716/15423 [4:56:00<8:22:41,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5717/15423 [4:56:03<8:22:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5717/15423 [4:56:03<8:22:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5718/15423 [4:56:07<8:22:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5718/15423 [4:56:07<8:22:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5719/15423 [4:56:09<8:22:30,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5719/15423 [4:56:09<8:22:30,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5720/15423 [4:56:10<8:22:24,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5720/15423 [4:56:10<8:22:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5721/15423 [4:56:11<8:22:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5721/15423 [4:56:11<8:22:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5722/15423 [4:56:13<8:22:12,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5722/15423 [4:56:13<8:22:12,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5723/15423 [4:56:16<8:22:10,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5723/15423 [4:56:16<8:22:10,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5724/15423 [4:56:20<8:22:08,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5724/15423 [4:56:20<8:22:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5725/15423 [4:56:22<8:22:03,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5725/15423 [4:56:22<8:22:03,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5726/15423 [4:56:26<8:22:01,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5726/15423 [4:56:26<8:22:01,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5727/15423 [4:56:28<8:21:55,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5727/15423 [4:56:28<8:21:55,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5728/15423 [4:56:44<8:22:15,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5728/15423 [4:56:44<8:22:15,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5729/15423 [4:56:47<8:22:12,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5729/15423 [4:56:47<8:22:12,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5730/15423 [4:56:51<8:22:10,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5730/15423 [4:56:51<8:22:10,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5731/15423 [4:56:52<8:22:04,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5731/15423 [4:56:52<8:22:04,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5732/15423 [4:56:55<8:22:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5732/15423 [4:56:55<8:22:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5733/15423 [4:56:57<8:21:55,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5733/15423 [4:56:57<8:21:55,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5734/15423 [4:57:00<8:21:51,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5734/15423 [4:57:00<8:21:51,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5735/15423 [4:57:04<8:21:50,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5735/15423 [4:57:04<8:21:50,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5736/15423 [4:57:06<8:21:45,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5736/15423 [4:57:06<8:21:45,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5737/15423 [4:57:07<8:21:39,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5737/15423 [4:57:07<8:21:39,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5738/15423 [4:57:08<8:21:32,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5738/15423 [4:57:08<8:21:32,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5739/15423 [4:57:12<8:21:30,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5739/15423 [4:57:12<8:21:30,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5740/15423 [4:57:14<8:21:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5740/15423 [4:57:14<8:21:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5741/15423 [4:57:15<8:21:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5741/15423 [4:57:15<8:21:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5742/15423 [4:57:18<8:21:16,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5742/15423 [4:57:18<8:21:16,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5743/15423 [4:57:22<8:21:14,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5743/15423 [4:57:22<8:21:14,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5744/15423 [4:57:24<8:21:08,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5744/15423 [4:57:24<8:21:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5745/15423 [4:57:25<8:21:02,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5745/15423 [4:57:25<8:21:02,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5746/15423 [4:57:29<8:21:01,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5746/15423 [4:57:29<8:21:01,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5747/15423 [4:57:33<8:20:58,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5747/15423 [4:57:33<8:20:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5748/15423 [4:57:36<8:20:56,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5748/15423 [4:57:36<8:20:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5749/15423 [4:57:38<8:20:50,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5749/15423 [4:57:38<8:20:50,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5750/15423 [4:57:40<8:20:46,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5750/15423 [4:57:40<8:20:46,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5751/15423 [4:57:42<8:20:41,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5751/15423 [4:57:42<8:20:41,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5752/15423 [4:57:45<8:20:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5752/15423 [4:57:45<8:20:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5753/15423 [4:57:46<8:20:31,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5753/15423 [4:57:46<8:20:31,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5754/15423 [4:57:49<8:20:27,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5754/15423 [4:57:49<8:20:27,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5755/15423 [4:57:52<8:20:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5755/15423 [4:57:52<8:20:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5756/15423 [4:57:53<8:20:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5756/15423 [4:57:53<8:20:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5757/15423 [4:57:55<8:20:13,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5757/15423 [4:57:55<8:20:13,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5758/15423 [4:57:59<8:20:10,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5758/15423 [4:57:59<8:20:10,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5759/15423 [4:58:02<8:20:08,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5759/15423 [4:58:02<8:20:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5760/15423 [4:58:25<8:20:37,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5760/15423 [4:58:25<8:20:37,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5761/15423 [4:58:26<8:20:31,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5761/15423 [4:58:26<8:20:31,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5762/15423 [4:58:29<8:20:27,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5762/15423 [4:58:29<8:20:27,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5763/15423 [4:58:32<8:20:24,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5763/15423 [4:58:32<8:20:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5764/15423 [4:58:32<8:20:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5764/15423 [4:58:32<8:20:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5765/15423 [4:58:33<8:20:10,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5765/15423 [4:58:33<8:20:10,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5766/15423 [4:58:38<8:20:09,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5766/15423 [4:58:38<8:20:09,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5767/15423 [4:58:42<8:20:07,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5767/15423 [4:58:42<8:20:07,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5768/15423 [4:58:45<8:20:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5768/15423 [4:58:45<8:20:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5769/15423 [4:58:49<8:20:04,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5769/15423 [4:58:49<8:20:04,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5770/15423 [4:58:54<8:20:02,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5770/15423 [4:58:54<8:20:02,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5771/15423 [4:58:58<8:20:01,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5771/15423 [4:58:58<8:20:01,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5772/15423 [4:59:01<8:19:58,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5772/15423 [4:59:01<8:19:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5773/15423 [4:59:04<8:19:55,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5773/15423 [4:59:04<8:19:55,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5774/15423 [4:59:05<8:19:49,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5774/15423 [4:59:05<8:19:49,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5775/15423 [4:59:09<8:19:47,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5775/15423 [4:59:09<8:19:47,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5776/15423 [4:59:13<8:19:45,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5776/15423 [4:59:13<8:19:45,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5777/15423 [4:59:14<8:19:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5777/15423 [4:59:14<8:19:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5778/15423 [4:59:17<8:19:36,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5778/15423 [4:59:17<8:19:36,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5779/15423 [4:59:21<8:19:33,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5779/15423 [4:59:21<8:19:33,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5780/15423 [4:59:22<8:19:27,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5780/15423 [4:59:22<8:19:27,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5781/15423 [4:59:24<8:19:22,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5781/15423 [4:59:24<8:19:22,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5782/15423 [4:59:27<8:19:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5782/15423 [4:59:27<8:19:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  37%|▎| 5783/15423 [4:59:31<8:19:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  37%|▎| 5783/15423 [4:59:31<8:19:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5784/15423 [4:59:34<8:19:14,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5784/15423 [4:59:34<8:19:14,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5785/15423 [4:59:35<8:19:07,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5785/15423 [4:59:35<8:19:07,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5786/15423 [4:59:38<8:19:04,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5786/15423 [4:59:38<8:19:04,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5787/15423 [4:59:39<8:18:57,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5787/15423 [4:59:39<8:18:57,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5788/15423 [4:59:43<8:18:56,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5788/15423 [4:59:43<8:18:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5789/15423 [4:59:45<8:18:51,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5789/15423 [4:59:45<8:18:51,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5790/15423 [4:59:46<8:18:45,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5790/15423 [4:59:46<8:18:45,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5791/15423 [4:59:48<8:18:39,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5791/15423 [4:59:48<8:18:39,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5792/15423 [4:59:56<8:18:45,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5792/15423 [4:59:56<8:18:45,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5793/15423 [5:00:00<8:18:43,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5793/15423 [5:00:00<8:18:43,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5794/15423 [5:00:03<8:18:39,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5794/15423 [5:00:03<8:18:39,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5795/15423 [5:00:07<8:18:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5795/15423 [5:00:07<8:18:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5796/15423 [5:00:09<8:18:33,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5796/15423 [5:00:09<8:18:33,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5797/15423 [5:00:10<8:18:26,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5797/15423 [5:00:10<8:18:26,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5798/15423 [5:00:13<8:18:23,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5798/15423 [5:00:13<8:18:23,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5799/15423 [5:00:16<8:18:19,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5799/15423 [5:00:16<8:18:19,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5800/15423 [5:00:17<8:18:12,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5800/15423 [5:00:17<8:18:12,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5801/15423 [5:00:19<8:18:08,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5801/15423 [5:00:19<8:18:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5802/15423 [5:00:22<8:18:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5802/15423 [5:00:22<8:18:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5803/15423 [5:00:24<8:18:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5803/15423 [5:00:24<8:18:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5804/15423 [5:00:25<8:17:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5804/15423 [5:00:25<8:17:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5805/15423 [5:00:27<8:17:48,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5805/15423 [5:00:27<8:17:48,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5806/15423 [5:00:29<8:17:43,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5806/15423 [5:00:29<8:17:43,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5807/15423 [5:00:30<8:17:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5807/15423 [5:00:30<8:17:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5808/15423 [5:00:32<8:17:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5808/15423 [5:00:32<8:17:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5809/15423 [5:00:36<8:17:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5809/15423 [5:00:36<8:17:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5810/15423 [5:00:39<8:17:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5810/15423 [5:00:39<8:17:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5811/15423 [5:00:39<8:17:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5811/15423 [5:00:39<8:17:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5812/15423 [5:00:43<8:17:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5812/15423 [5:00:43<8:17:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5813/15423 [5:00:46<8:17:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5813/15423 [5:00:46<8:17:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5814/15423 [5:00:48<8:17:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5814/15423 [5:00:48<8:17:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5815/15423 [5:00:53<8:17:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5815/15423 [5:00:53<8:17:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5816/15423 [5:00:56<8:17:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5816/15423 [5:00:56<8:17:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5817/15423 [5:00:58<8:17:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5817/15423 [5:00:58<8:17:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5818/15423 [5:01:02<8:16:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5818/15423 [5:01:02<8:16:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5819/15423 [5:01:03<8:16:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5819/15423 [5:01:03<8:16:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5820/15423 [5:01:04<8:16:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5820/15423 [5:01:04<8:16:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5821/15423 [5:01:08<8:16:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5821/15423 [5:01:08<8:16:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5822/15423 [5:01:11<8:16:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5822/15423 [5:01:11<8:16:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5823/15423 [5:01:13<8:16:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5823/15423 [5:01:13<8:16:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5824/15423 [5:01:32<8:16:59,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5824/15423 [5:01:32<8:16:59,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5825/15423 [5:01:33<8:16:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5825/15423 [5:01:33<8:16:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5826/15423 [5:01:36<8:16:49,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5826/15423 [5:01:36<8:16:49,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5827/15423 [5:01:39<8:16:47,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5827/15423 [5:01:39<8:16:47,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5828/15423 [5:01:41<8:16:41,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5828/15423 [5:01:41<8:16:41,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5829/15423 [5:01:42<8:16:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5829/15423 [5:01:42<8:16:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5830/15423 [5:01:45<8:16:31,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5830/15423 [5:01:45<8:16:31,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5831/15423 [5:01:46<8:16:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5831/15423 [5:01:46<8:16:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5832/15423 [5:01:49<8:16:22,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5832/15423 [5:01:49<8:16:22,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5833/15423 [5:01:52<8:16:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5833/15423 [5:01:52<8:16:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5834/15423 [5:01:54<8:16:14,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5834/15423 [5:01:54<8:16:14,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5835/15423 [5:01:58<8:16:12,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5835/15423 [5:01:58<8:16:12,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5836/15423 [5:02:02<8:16:10,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5836/15423 [5:02:02<8:16:10,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5837/15423 [5:02:03<8:16:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5837/15423 [5:02:03<8:16:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5838/15423 [5:02:07<8:16:01,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5838/15423 [5:02:07<8:16:01,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5839/15423 [5:02:11<8:16:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5839/15423 [5:02:11<8:16:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5840/15423 [5:02:12<8:15:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5840/15423 [5:02:12<8:15:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5841/15423 [5:02:13<8:15:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5841/15423 [5:02:13<8:15:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5842/15423 [5:02:17<8:15:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5842/15423 [5:02:17<8:15:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5843/15423 [5:02:18<8:15:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5843/15423 [5:02:18<8:15:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5844/15423 [5:02:20<8:15:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5844/15423 [5:02:20<8:15:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5845/15423 [5:02:22<8:15:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5845/15423 [5:02:22<8:15:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5846/15423 [5:02:26<8:15:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5846/15423 [5:02:26<8:15:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5847/15423 [5:02:28<8:15:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5847/15423 [5:02:28<8:15:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5848/15423 [5:02:31<8:15:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5848/15423 [5:02:31<8:15:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5849/15423 [5:02:34<8:15:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5849/15423 [5:02:34<8:15:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5850/15423 [5:02:38<8:15:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5850/15423 [5:02:38<8:15:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5851/15423 [5:02:42<8:15:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5851/15423 [5:02:42<8:15:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5852/15423 [5:02:43<8:15:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5852/15423 [5:02:43<8:15:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5853/15423 [5:02:45<8:15:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5853/15423 [5:02:45<8:15:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5854/15423 [5:02:46<8:14:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5854/15423 [5:02:46<8:14:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5855/15423 [5:02:48<8:14:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5855/15423 [5:02:48<8:14:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5856/15423 [5:03:09<8:15:16,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5856/15423 [5:03:09<8:15:16,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5857/15423 [5:03:10<8:15:09,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5857/15423 [5:03:10<8:15:09,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5858/15423 [5:03:14<8:15:08,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5858/15423 [5:03:14<8:15:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5859/15423 [5:03:18<8:15:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5859/15423 [5:03:18<8:15:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5860/15423 [5:03:22<8:15:04,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5860/15423 [5:03:22<8:15:04,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5861/15423 [5:03:24<8:15:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5861/15423 [5:03:24<8:15:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5862/15423 [5:03:29<8:14:59,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5862/15423 [5:03:29<8:14:59,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5863/15423 [5:03:31<8:14:54,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5863/15423 [5:03:31<8:14:54,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5864/15423 [5:03:35<8:14:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5864/15423 [5:03:35<8:14:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5865/15423 [5:03:36<8:14:46,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5865/15423 [5:03:36<8:14:46,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5866/15423 [5:03:39<8:14:44,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5866/15423 [5:03:39<8:14:44,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5867/15423 [5:03:40<8:14:37,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5867/15423 [5:03:40<8:14:37,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5868/15423 [5:03:43<8:14:34,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5868/15423 [5:03:43<8:14:34,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5869/15423 [5:03:47<8:14:31,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5869/15423 [5:03:47<8:14:31,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5870/15423 [5:03:48<8:14:26,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5870/15423 [5:03:48<8:14:26,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5871/15423 [5:03:51<8:14:22,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5871/15423 [5:03:51<8:14:22,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5872/15423 [5:03:52<8:14:16,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5872/15423 [5:03:52<8:14:16,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5873/15423 [5:03:54<8:14:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5873/15423 [5:03:54<8:14:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5874/15423 [5:03:57<8:14:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5874/15423 [5:03:57<8:14:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5875/15423 [5:03:58<8:14:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5875/15423 [5:03:58<8:14:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5876/15423 [5:03:59<8:13:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5876/15423 [5:03:59<8:13:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5877/15423 [5:04:04<8:13:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5877/15423 [5:04:04<8:13:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5878/15423 [5:04:05<8:13:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5878/15423 [5:04:05<8:13:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5879/15423 [5:04:06<8:13:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5879/15423 [5:04:06<8:13:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5880/15423 [5:04:08<8:13:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5880/15423 [5:04:08<8:13:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5881/15423 [5:04:11<8:13:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5881/15423 [5:04:11<8:13:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5882/15423 [5:04:14<8:13:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5882/15423 [5:04:14<8:13:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5883/15423 [5:04:18<8:13:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5883/15423 [5:04:18<8:13:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5884/15423 [5:04:20<8:13:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5884/15423 [5:04:20<8:13:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5885/15423 [5:04:23<8:13:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5885/15423 [5:04:23<8:13:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5886/15423 [5:04:25<8:13:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5886/15423 [5:04:25<8:13:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5887/15423 [5:04:28<8:13:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5887/15423 [5:04:28<8:13:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5888/15423 [5:04:42<8:13:27,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5888/15423 [5:04:42<8:13:27,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5889/15423 [5:04:43<8:13:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5889/15423 [5:04:43<8:13:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5890/15423 [5:04:46<8:13:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5890/15423 [5:04:46<8:13:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5891/15423 [5:04:51<8:13:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5891/15423 [5:04:51<8:13:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5892/15423 [5:04:51<8:13:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5892/15423 [5:04:51<8:13:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5893/15423 [5:04:52<8:13:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5893/15423 [5:04:52<8:13:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5894/15423 [5:04:53<8:12:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5894/15423 [5:04:53<8:12:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5895/15423 [5:04:55<8:12:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5895/15423 [5:04:56<8:12:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5896/15423 [5:04:59<8:12:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5896/15423 [5:04:59<8:12:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5897/15423 [5:05:03<8:12:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5897/15423 [5:05:03<8:12:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5898/15423 [5:05:06<8:12:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5898/15423 [5:05:06<8:12:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5899/15423 [5:05:08<8:12:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5899/15423 [5:05:08<8:12:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5900/15423 [5:05:09<8:12:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5900/15423 [5:05:09<8:12:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5901/15423 [5:05:13<8:12:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5901/15423 [5:05:13<8:12:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5902/15423 [5:05:13<8:12:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5902/15423 [5:05:13<8:12:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5903/15423 [5:05:17<8:12:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5903/15423 [5:05:17<8:12:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5904/15423 [5:05:20<8:12:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5904/15423 [5:05:20<8:12:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5905/15423 [5:05:23<8:12:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5905/15423 [5:05:23<8:12:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5906/15423 [5:05:26<8:12:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5906/15423 [5:05:26<8:12:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5907/15423 [5:05:30<8:12:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5907/15423 [5:05:30<8:12:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5908/15423 [5:05:33<8:12:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5908/15423 [5:05:33<8:12:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5909/15423 [5:05:36<8:12:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5909/15423 [5:05:36<8:12:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5910/15423 [5:05:38<8:11:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5910/15423 [5:05:38<8:11:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5911/15423 [5:05:39<8:11:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5911/15423 [5:05:39<8:11:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5912/15423 [5:05:41<8:11:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5912/15423 [5:05:41<8:11:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5913/15423 [5:05:44<8:11:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5913/15423 [5:05:44<8:11:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5914/15423 [5:05:47<8:11:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5914/15423 [5:05:47<8:11:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5915/15423 [5:05:49<8:11:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5915/15423 [5:05:49<8:11:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5916/15423 [5:05:49<8:11:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5916/15423 [5:05:49<8:11:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5917/15423 [5:05:52<8:11:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5917/15423 [5:05:52<8:11:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5918/15423 [5:05:55<8:11:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5918/15423 [5:05:55<8:11:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5919/15423 [5:05:58<8:11:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5919/15423 [5:05:58<8:11:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5920/15423 [5:06:14<8:11:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5920/15423 [5:06:14<8:11:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5921/15423 [5:06:16<8:11:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5921/15423 [5:06:16<8:11:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5922/15423 [5:06:18<8:11:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5922/15423 [5:06:18<8:11:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5923/15423 [5:06:20<8:11:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5923/15423 [5:06:20<8:11:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5924/15423 [5:06:25<8:11:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5924/15423 [5:06:25<8:11:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5925/15423 [5:06:29<8:11:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5925/15423 [5:06:29<8:11:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5926/15423 [5:06:33<8:11:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5926/15423 [5:06:33<8:11:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5927/15423 [5:06:34<8:11:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5927/15423 [5:06:34<8:11:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5928/15423 [5:06:38<8:11:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5928/15423 [5:06:38<8:11:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5929/15423 [5:06:41<8:11:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5929/15423 [5:06:41<8:11:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5930/15423 [5:06:43<8:11:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5930/15423 [5:06:43<8:11:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5931/15423 [5:06:47<8:10:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5931/15423 [5:06:47<8:10:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5932/15423 [5:06:50<8:10:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5932/15423 [5:06:50<8:10:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5933/15423 [5:06:53<8:10:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5933/15423 [5:06:53<8:10:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5934/15423 [5:06:57<8:10:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5934/15423 [5:06:57<8:10:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5935/15423 [5:06:58<8:10:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5935/15423 [5:06:58<8:10:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5936/15423 [5:06:59<8:10:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5936/15423 [5:06:59<8:10:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  38%|▍| 5937/15423 [5:07:02<8:10:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  38%|▍| 5937/15423 [5:07:02<8:10:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5938/15423 [5:07:05<8:10:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5938/15423 [5:07:05<8:10:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5939/15423 [5:07:08<8:10:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5939/15423 [5:07:08<8:10:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5940/15423 [5:07:11<8:10:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5940/15423 [5:07:11<8:10:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5941/15423 [5:07:14<8:10:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5941/15423 [5:07:14<8:10:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5942/15423 [5:07:15<8:10:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5942/15423 [5:07:15<8:10:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5943/15423 [5:07:20<8:10:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5943/15423 [5:07:20<8:10:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5944/15423 [5:07:23<8:10:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5944/15423 [5:07:23<8:10:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5945/15423 [5:07:24<8:10:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5945/15423 [5:07:24<8:10:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5946/15423 [5:07:26<8:10:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5946/15423 [5:07:26<8:10:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5947/15423 [5:07:26<8:09:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5947/15423 [5:07:26<8:09:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5948/15423 [5:07:31<8:09:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5948/15423 [5:07:31<8:09:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5949/15423 [5:07:34<8:09:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5949/15423 [5:07:34<8:09:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5950/15423 [5:07:38<8:09:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5950/15423 [5:07:38<8:09:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5951/15423 [5:07:41<8:09:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5951/15423 [5:07:41<8:09:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5952/15423 [5:07:48<8:09:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5952/15423 [5:07:48<8:09:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5953/15423 [5:07:52<8:09:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5953/15423 [5:07:52<8:09:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5954/15423 [5:07:55<8:09:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5954/15423 [5:07:55<8:09:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5955/15423 [5:07:56<8:09:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5955/15423 [5:07:56<8:09:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5956/15423 [5:07:58<8:09:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5956/15423 [5:07:58<8:09:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5957/15423 [5:07:59<8:09:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5957/15423 [5:07:59<8:09:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5958/15423 [5:08:02<8:09:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5958/15423 [5:08:02<8:09:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5959/15423 [5:08:04<8:09:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5959/15423 [5:08:04<8:09:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5960/15423 [5:08:06<8:09:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5960/15423 [5:08:06<8:09:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5961/15423 [5:08:07<8:09:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5961/15423 [5:08:07<8:09:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5962/15423 [5:08:09<8:09:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5962/15423 [5:08:09<8:09:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5963/15423 [5:08:11<8:08:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5963/15423 [5:08:11<8:08:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5964/15423 [5:08:14<8:08:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5964/15423 [5:08:14<8:08:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5965/15423 [5:08:18<8:08:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5965/15423 [5:08:18<8:08:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5966/15423 [5:08:21<8:08:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5966/15423 [5:08:21<8:08:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5967/15423 [5:08:26<8:08:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5967/15423 [5:08:26<8:08:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5968/15423 [5:08:28<8:08:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5968/15423 [5:08:28<8:08:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5969/15423 [5:08:32<8:08:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5969/15423 [5:08:32<8:08:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5970/15423 [5:08:32<8:08:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5970/15423 [5:08:32<8:08:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5971/15423 [5:08:35<8:08:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5971/15423 [5:08:35<8:08:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5972/15423 [5:08:37<8:08:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5972/15423 [5:08:37<8:08:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5973/15423 [5:08:39<8:08:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5973/15423 [5:08:39<8:08:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5974/15423 [5:08:40<8:08:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5974/15423 [5:08:40<8:08:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5975/15423 [5:08:41<8:08:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5975/15423 [5:08:41<8:08:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5976/15423 [5:08:45<8:08:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5976/15423 [5:08:45<8:08:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5977/15423 [5:08:50<8:08:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5977/15423 [5:08:50<8:08:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5978/15423 [5:08:53<8:08:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5978/15423 [5:08:53<8:08:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5979/15423 [5:08:58<8:08:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5979/15423 [5:08:58<8:08:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5980/15423 [5:09:02<8:08:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5980/15423 [5:09:02<8:08:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5981/15423 [5:09:04<8:07:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5981/15423 [5:09:04<8:07:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5982/15423 [5:09:06<8:07:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5982/15423 [5:09:06<8:07:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5983/15423 [5:09:09<8:07:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5983/15423 [5:09:09<8:07:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5984/15423 [5:09:25<8:08:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5984/15423 [5:09:25<8:08:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5985/15423 [5:09:26<8:07:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5985/15423 [5:09:26<8:07:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5986/15423 [5:09:29<8:07:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5986/15423 [5:09:29<8:07:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5987/15423 [5:09:32<8:07:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5987/15423 [5:09:32<8:07:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5988/15423 [5:09:37<8:07:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5988/15423 [5:09:37<8:07:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5989/15423 [5:09:38<8:07:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5989/15423 [5:09:38<8:07:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5990/15423 [5:09:41<8:07:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5990/15423 [5:09:41<8:07:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5991/15423 [5:09:45<8:07:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5991/15423 [5:09:45<8:07:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5992/15423 [5:09:46<8:07:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5992/15423 [5:09:46<8:07:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5993/15423 [5:09:48<8:07:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5993/15423 [5:09:48<8:07:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5994/15423 [5:09:50<8:07:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5994/15423 [5:09:50<8:07:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5995/15423 [5:09:54<8:07:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5995/15423 [5:09:54<8:07:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5996/15423 [5:09:57<8:07:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5996/15423 [5:09:57<8:07:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5997/15423 [5:10:00<8:07:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5997/15423 [5:10:00<8:07:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5998/15423 [5:10:01<8:07:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5998/15423 [5:10:01<8:07:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 5999/15423 [5:10:02<8:07:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 5999/15423 [5:10:02<8:07:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6000/15423 [5:10:07<8:07:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6000/15423 [5:10:07<8:07:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6001/15423 [5:10:10<8:06:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6001/15423 [5:10:10<8:06:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6002/15423 [5:10:13<8:06:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6002/15423 [5:10:13<8:06:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6003/15423 [5:10:15<8:06:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6003/15423 [5:10:15<8:06:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6004/15423 [5:10:16<8:06:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6004/15423 [5:10:16<8:06:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6005/15423 [5:10:20<8:06:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6005/15423 [5:10:20<8:06:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6006/15423 [5:10:24<8:06:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6006/15423 [5:10:24<8:06:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6007/15423 [5:10:28<8:06:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6007/15423 [5:10:28<8:06:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6008/15423 [5:10:30<8:06:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6008/15423 [5:10:30<8:06:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6009/15423 [5:10:32<8:06:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6009/15423 [5:10:32<8:06:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6010/15423 [5:10:35<8:06:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6010/15423 [5:10:35<8:06:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6011/15423 [5:10:38<8:06:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6011/15423 [5:10:38<8:06:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6012/15423 [5:10:42<8:06:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6012/15423 [5:10:42<8:06:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6013/15423 [5:10:43<8:06:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6013/15423 [5:10:43<8:06:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6014/15423 [5:10:46<8:06:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6014/15423 [5:10:46<8:06:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6015/15423 [5:10:50<8:06:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6015/15423 [5:10:50<8:06:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6016/15423 [5:11:03<8:06:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6016/15423 [5:11:03<8:06:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6017/15423 [5:11:07<8:06:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6017/15423 [5:11:07<8:06:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6018/15423 [5:11:09<8:06:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6018/15423 [5:11:09<8:06:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6019/15423 [5:11:10<8:06:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6019/15423 [5:11:10<8:06:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6020/15423 [5:11:12<8:06:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6020/15423 [5:11:12<8:06:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6021/15423 [5:11:15<8:06:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6021/15423 [5:11:15<8:06:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6022/15423 [5:11:19<8:06:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6022/15423 [5:11:19<8:06:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6023/15423 [5:11:21<8:05:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6023/15423 [5:11:21<8:05:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6024/15423 [5:11:25<8:05:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6024/15423 [5:11:25<8:05:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6025/15423 [5:11:28<8:05:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6025/15423 [5:11:28<8:05:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6026/15423 [5:11:31<8:05:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6026/15423 [5:11:31<8:05:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6027/15423 [5:11:32<8:05:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6027/15423 [5:11:32<8:05:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6028/15423 [5:11:33<8:05:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6028/15423 [5:11:33<8:05:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6029/15423 [5:11:35<8:05:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6029/15423 [5:11:35<8:05:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6030/15423 [5:11:37<8:05:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6030/15423 [5:11:37<8:05:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6031/15423 [5:11:38<8:05:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6031/15423 [5:11:38<8:05:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6032/15423 [5:11:40<8:05:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6032/15423 [5:11:40<8:05:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6033/15423 [5:11:41<8:05:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6033/15423 [5:11:41<8:05:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6034/15423 [5:11:42<8:05:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6034/15423 [5:11:42<8:05:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6035/15423 [5:11:42<8:04:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6035/15423 [5:11:42<8:04:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6036/15423 [5:11:44<8:04:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6036/15423 [5:11:44<8:04:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6037/15423 [5:11:47<8:04:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6037/15423 [5:11:47<8:04:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6038/15423 [5:11:49<8:04:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6038/15423 [5:11:49<8:04:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6039/15423 [5:11:50<8:04:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6039/15423 [5:11:50<8:04:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6040/15423 [5:11:52<8:04:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6040/15423 [5:11:52<8:04:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6041/15423 [5:11:55<8:04:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6041/15423 [5:11:55<8:04:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6042/15423 [5:11:59<8:04:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6042/15423 [5:11:59<8:04:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6043/15423 [5:12:01<8:04:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6043/15423 [5:12:01<8:04:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6044/15423 [5:12:03<8:04:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6044/15423 [5:12:03<8:04:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6045/15423 [5:12:04<8:04:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6045/15423 [5:12:04<8:04:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6046/15423 [5:12:05<8:04:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6046/15423 [5:12:05<8:04:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6047/15423 [5:12:10<8:04:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6047/15423 [5:12:10<8:04:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6048/15423 [5:12:38<8:04:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6048/15423 [5:12:38<8:04:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6049/15423 [5:12:39<8:04:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6049/15423 [5:12:39<8:04:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6050/15423 [5:12:41<8:04:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6050/15423 [5:12:41<8:04:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6051/15423 [5:12:44<8:04:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6051/15423 [5:12:44<8:04:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6052/15423 [5:12:47<8:04:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6052/15423 [5:12:47<8:04:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6053/15423 [5:12:50<8:04:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6053/15423 [5:12:50<8:04:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6054/15423 [5:12:53<8:04:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6054/15423 [5:12:53<8:04:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6055/15423 [5:12:57<8:04:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6055/15423 [5:12:57<8:04:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6056/15423 [5:13:01<8:04:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6056/15423 [5:13:01<8:04:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6057/15423 [5:13:05<8:04:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6057/15423 [5:13:05<8:04:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6058/15423 [5:13:10<8:04:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6058/15423 [5:13:10<8:04:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6059/15423 [5:13:12<8:04:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6059/15423 [5:13:12<8:04:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6060/15423 [5:13:14<8:03:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6060/15423 [5:13:14<8:03:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6061/15423 [5:13:17<8:03:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6061/15423 [5:13:17<8:03:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6062/15423 [5:13:19<8:03:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6062/15423 [5:13:19<8:03:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6063/15423 [5:13:20<8:03:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6063/15423 [5:13:20<8:03:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6064/15423 [5:13:23<8:03:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6064/15423 [5:13:23<8:03:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6065/15423 [5:13:24<8:03:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6065/15423 [5:13:24<8:03:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6066/15423 [5:13:28<8:03:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6066/15423 [5:13:28<8:03:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6067/15423 [5:13:30<8:03:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6067/15423 [5:13:30<8:03:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6068/15423 [5:13:31<8:03:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6068/15423 [5:13:31<8:03:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6069/15423 [5:13:33<8:03:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6069/15423 [5:13:33<8:03:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6070/15423 [5:13:35<8:03:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6070/15423 [5:13:35<8:03:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6071/15423 [5:13:38<8:03:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6071/15423 [5:13:38<8:03:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6072/15423 [5:13:41<8:03:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6072/15423 [5:13:41<8:03:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6073/15423 [5:13:43<8:03:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6073/15423 [5:13:43<8:03:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6074/15423 [5:13:46<8:02:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6074/15423 [5:13:46<8:02:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6075/15423 [5:13:48<8:02:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6075/15423 [5:13:48<8:02:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6076/15423 [5:13:51<8:02:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6076/15423 [5:13:51<8:02:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6077/15423 [5:13:55<8:02:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6077/15423 [5:13:55<8:02:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6078/15423 [5:13:58<8:02:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6078/15423 [5:13:58<8:02:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6079/15423 [5:13:58<8:02:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6079/15423 [5:13:58<8:02:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6080/15423 [5:14:22<8:03:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6080/15423 [5:14:22<8:03:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6081/15423 [5:14:26<8:03:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6081/15423 [5:14:26<8:03:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6082/15423 [5:14:28<8:02:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6082/15423 [5:14:28<8:02:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6083/15423 [5:14:31<8:02:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6083/15423 [5:14:31<8:02:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6084/15423 [5:14:35<8:02:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6084/15423 [5:14:35<8:02:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6085/15423 [5:14:36<8:02:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6085/15423 [5:14:36<8:02:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6086/15423 [5:14:37<8:02:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6086/15423 [5:14:37<8:02:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6087/15423 [5:14:41<8:02:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6087/15423 [5:14:41<8:02:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6088/15423 [5:14:45<8:02:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6088/15423 [5:14:45<8:02:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6089/15423 [5:14:48<8:02:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6089/15423 [5:14:48<8:02:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6090/15423 [5:14:48<8:02:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6090/15423 [5:14:48<8:02:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6091/15423 [5:14:49<8:02:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6091/15423 [5:14:49<8:02:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  39%|▍| 6092/15423 [5:14:51<8:02:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  39%|▍| 6092/15423 [5:14:51<8:02:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6093/15423 [5:14:53<8:02:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6093/15423 [5:14:53<8:02:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6094/15423 [5:14:56<8:02:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6094/15423 [5:14:56<8:02:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6095/15423 [5:14:57<8:02:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6095/15423 [5:14:57<8:02:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6096/15423 [5:14:59<8:01:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6096/15423 [5:14:59<8:01:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6097/15423 [5:15:03<8:01:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6097/15423 [5:15:03<8:01:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6098/15423 [5:15:07<8:01:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6098/15423 [5:15:07<8:01:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6099/15423 [5:15:09<8:01:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6099/15423 [5:15:09<8:01:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6100/15423 [5:15:13<8:01:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6100/15423 [5:15:13<8:01:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6101/15423 [5:15:15<8:01:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6101/15423 [5:15:15<8:01:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6102/15423 [5:15:17<8:01:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6102/15423 [5:15:17<8:01:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6103/15423 [5:15:22<8:01:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6103/15423 [5:15:22<8:01:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6104/15423 [5:15:24<8:01:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6104/15423 [5:15:24<8:01:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6105/15423 [5:15:28<8:01:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6105/15423 [5:15:28<8:01:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6106/15423 [5:15:29<8:01:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6106/15423 [5:15:29<8:01:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6107/15423 [5:15:31<8:01:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6107/15423 [5:15:31<8:01:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6108/15423 [5:15:36<8:01:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6108/15423 [5:15:36<8:01:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6109/15423 [5:15:40<8:01:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6109/15423 [5:15:40<8:01:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6110/15423 [5:15:42<8:01:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6110/15423 [5:15:42<8:01:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6111/15423 [5:15:46<8:01:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6111/15423 [5:15:46<8:01:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6112/15423 [5:16:00<8:01:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6112/15423 [5:16:00<8:01:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6113/15423 [5:16:03<8:01:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6113/15423 [5:16:03<8:01:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6114/15423 [5:16:05<8:01:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6114/15423 [5:16:05<8:01:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6115/15423 [5:16:06<8:01:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6115/15423 [5:16:06<8:01:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6116/15423 [5:16:09<8:01:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6116/15423 [5:16:09<8:01:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6117/15423 [5:16:13<8:01:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6117/15423 [5:16:13<8:01:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6118/15423 [5:16:17<8:01:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6118/15423 [5:16:17<8:01:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6119/15423 [5:16:20<8:01:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6119/15423 [5:16:20<8:01:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6120/15423 [5:16:22<8:00:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6120/15423 [5:16:22<8:00:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6121/15423 [5:16:24<8:00:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6121/15423 [5:16:24<8:00:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6122/15423 [5:16:26<8:00:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6122/15423 [5:16:26<8:00:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6123/15423 [5:16:28<8:00:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6123/15423 [5:16:28<8:00:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6124/15423 [5:16:31<8:00:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6124/15423 [5:16:31<8:00:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6125/15423 [5:16:33<8:00:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6125/15423 [5:16:33<8:00:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6126/15423 [5:16:38<8:00:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6126/15423 [5:16:38<8:00:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6127/15423 [5:16:39<8:00:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6127/15423 [5:16:39<8:00:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6128/15423 [5:16:43<8:00:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6128/15423 [5:16:43<8:00:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6129/15423 [5:16:46<8:00:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6129/15423 [5:16:46<8:00:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6130/15423 [5:16:50<8:00:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6130/15423 [5:16:50<8:00:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6131/15423 [5:16:54<8:00:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6131/15423 [5:16:54<8:00:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6132/15423 [5:16:58<8:00:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6132/15423 [5:16:58<8:00:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6133/15423 [5:17:00<8:00:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6133/15423 [5:17:00<8:00:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6134/15423 [5:17:01<8:00:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6134/15423 [5:17:01<8:00:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6135/15423 [5:17:05<8:00:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6135/15423 [5:17:05<8:00:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6136/15423 [5:17:09<8:00:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6136/15423 [5:17:09<8:00:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6137/15423 [5:17:10<7:59:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6137/15423 [5:17:10<7:59:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6138/15423 [5:17:10<7:59:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6138/15423 [5:17:10<7:59:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6139/15423 [5:17:13<7:59:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6139/15423 [5:17:13<7:59:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6140/15423 [5:17:15<7:59:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6140/15423 [5:17:15<7:59:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6141/15423 [5:17:17<7:59:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6141/15423 [5:17:17<7:59:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6142/15423 [5:17:18<7:59:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6142/15423 [5:17:18<7:59:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6143/15423 [5:17:22<7:59:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6143/15423 [5:17:22<7:59:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6144/15423 [5:17:37<7:59:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6144/15423 [5:17:37<7:59:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6145/15423 [5:17:42<7:59:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6145/15423 [5:17:42<7:59:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6146/15423 [5:17:43<7:59:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6146/15423 [5:17:43<7:59:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6147/15423 [5:17:47<7:59:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6147/15423 [5:17:47<7:59:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6148/15423 [5:17:51<7:59:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6148/15423 [5:17:51<7:59:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6149/15423 [5:17:53<7:59:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6149/15423 [5:17:53<7:59:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6150/15423 [5:17:57<7:59:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6150/15423 [5:17:57<7:59:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6151/15423 [5:18:00<7:59:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6151/15423 [5:18:00<7:59:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6152/15423 [5:18:04<7:59:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6152/15423 [5:18:04<7:59:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6153/15423 [5:18:08<7:59:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6153/15423 [5:18:08<7:59:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6154/15423 [5:18:11<7:59:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6154/15423 [5:18:11<7:59:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6155/15423 [5:18:14<7:59:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6155/15423 [5:18:14<7:59:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6156/15423 [5:18:16<7:59:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6156/15423 [5:18:16<7:59:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6157/15423 [5:18:20<7:59:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6157/15423 [5:18:20<7:59:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6158/15423 [5:18:25<7:59:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6158/15423 [5:18:25<7:59:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6159/15423 [5:18:26<7:58:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6159/15423 [5:18:26<7:58:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6160/15423 [5:18:31<7:58:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6160/15423 [5:18:31<7:58:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6161/15423 [5:18:33<7:58:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6161/15423 [5:18:33<7:58:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6162/15423 [5:18:36<7:58:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6162/15423 [5:18:36<7:58:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6163/15423 [5:18:37<7:58:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6163/15423 [5:18:37<7:58:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6164/15423 [5:18:38<7:58:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6164/15423 [5:18:38<7:58:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6165/15423 [5:18:40<7:58:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6165/15423 [5:18:40<7:58:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6166/15423 [5:18:42<7:58:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6166/15423 [5:18:42<7:58:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6167/15423 [5:18:45<7:58:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6167/15423 [5:18:45<7:58:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6168/15423 [5:18:48<7:58:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6168/15423 [5:18:48<7:58:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6169/15423 [5:18:51<7:58:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6169/15423 [5:18:51<7:58:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6170/15423 [5:18:54<7:58:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6170/15423 [5:18:54<7:58:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6171/15423 [5:18:57<7:58:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6171/15423 [5:18:57<7:58:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6172/15423 [5:19:01<7:58:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6172/15423 [5:19:01<7:58:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6173/15423 [5:19:04<7:58:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6173/15423 [5:19:04<7:58:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6174/15423 [5:19:07<7:58:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6174/15423 [5:19:07<7:58:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6175/15423 [5:19:07<7:57:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6175/15423 [5:19:07<7:57:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6176/15423 [5:19:15<7:58:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6176/15423 [5:19:15<7:58:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6177/15423 [5:19:17<7:57:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6177/15423 [5:19:17<7:57:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6178/15423 [5:19:19<7:57:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6178/15423 [5:19:19<7:57:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6179/15423 [5:19:20<7:57:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6179/15423 [5:19:20<7:57:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6180/15423 [5:19:22<7:57:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6180/15423 [5:19:22<7:57:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6181/15423 [5:19:26<7:57:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6181/15423 [5:19:26<7:57:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6182/15423 [5:19:28<7:57:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6182/15423 [5:19:28<7:57:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6183/15423 [5:19:32<7:57:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6183/15423 [5:19:32<7:57:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6184/15423 [5:19:36<7:57:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6184/15423 [5:19:36<7:57:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6185/15423 [5:19:40<7:57:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6185/15423 [5:19:40<7:57:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6186/15423 [5:19:43<7:57:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6186/15423 [5:19:43<7:57:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6187/15423 [5:19:44<7:57:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6187/15423 [5:19:44<7:57:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6188/15423 [5:19:47<7:57:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6188/15423 [5:19:47<7:57:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6189/15423 [5:19:48<7:57:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6189/15423 [5:19:48<7:57:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6190/15423 [5:19:52<7:57:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6190/15423 [5:19:52<7:57:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6191/15423 [5:19:55<7:57:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6191/15423 [5:19:55<7:57:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6192/15423 [5:19:57<7:56:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6192/15423 [5:19:57<7:56:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6193/15423 [5:20:01<7:56:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6193/15423 [5:20:01<7:56:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6194/15423 [5:20:05<7:56:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6194/15423 [5:20:05<7:56:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6195/15423 [5:20:08<7:56:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6195/15423 [5:20:08<7:56:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6196/15423 [5:20:12<7:56:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6196/15423 [5:20:12<7:56:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6197/15423 [5:20:13<7:56:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6197/15423 [5:20:13<7:56:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6198/15423 [5:20:16<7:56:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6198/15423 [5:20:16<7:56:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6199/15423 [5:20:20<7:56:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6199/15423 [5:20:20<7:56:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6200/15423 [5:20:25<7:56:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6200/15423 [5:20:25<7:56:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6201/15423 [5:20:27<7:56:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6201/15423 [5:20:27<7:56:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6202/15423 [5:20:32<7:56:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6202/15423 [5:20:32<7:56:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6203/15423 [5:20:34<7:56:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6203/15423 [5:20:34<7:56:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6204/15423 [5:20:35<7:56:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6204/15423 [5:20:35<7:56:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6205/15423 [5:20:36<7:56:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6205/15423 [5:20:36<7:56:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6206/15423 [5:20:40<7:56:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6206/15423 [5:20:40<7:56:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6207/15423 [5:20:44<7:56:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6207/15423 [5:20:44<7:56:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6208/15423 [5:20:53<7:56:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6208/15423 [5:20:53<7:56:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6209/15423 [5:20:55<7:56:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6209/15423 [5:20:55<7:56:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6210/15423 [5:20:56<7:56:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6210/15423 [5:20:56<7:56:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6211/15423 [5:20:58<7:56:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6211/15423 [5:20:58<7:56:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6212/15423 [5:21:00<7:55:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6212/15423 [5:21:00<7:55:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6213/15423 [5:21:00<7:55:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6213/15423 [5:21:00<7:55:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6214/15423 [5:21:04<7:55:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6214/15423 [5:21:04<7:55:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6215/15423 [5:21:06<7:55:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6215/15423 [5:21:06<7:55:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6216/15423 [5:21:09<7:55:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6216/15423 [5:21:09<7:55:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6217/15423 [5:21:13<7:55:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6217/15423 [5:21:13<7:55:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6218/15423 [5:21:17<7:55:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6218/15423 [5:21:17<7:55:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6219/15423 [5:21:22<7:55:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6219/15423 [5:21:22<7:55:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6220/15423 [5:21:25<7:55:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6220/15423 [5:21:25<7:55:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6221/15423 [5:21:28<7:55:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6221/15423 [5:21:28<7:55:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6222/15423 [5:21:31<7:55:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6222/15423 [5:21:31<7:55:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6223/15423 [5:21:32<7:55:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6223/15423 [5:21:32<7:55:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6224/15423 [5:21:36<7:55:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6224/15423 [5:21:36<7:55:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6225/15423 [5:21:37<7:55:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6225/15423 [5:21:37<7:55:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6226/15423 [5:21:38<7:55:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6226/15423 [5:21:38<7:55:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6227/15423 [5:21:42<7:55:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6227/15423 [5:21:42<7:55:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6228/15423 [5:21:45<7:55:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6228/15423 [5:21:45<7:55:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6229/15423 [5:21:49<7:55:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6229/15423 [5:21:49<7:55:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6230/15423 [5:21:53<7:54:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6230/15423 [5:21:53<7:54:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6231/15423 [5:21:56<7:54:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6231/15423 [5:21:56<7:54:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6232/15423 [5:21:58<7:54:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6232/15423 [5:21:58<7:54:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6233/15423 [5:22:01<7:54:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6233/15423 [5:22:01<7:54:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6234/15423 [5:22:02<7:54:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6234/15423 [5:22:02<7:54:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6235/15423 [5:22:04<7:54:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6235/15423 [5:22:04<7:54:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6236/15423 [5:22:04<7:54:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6236/15423 [5:22:04<7:54:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6237/15423 [5:22:09<7:54:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6237/15423 [5:22:09<7:54:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6238/15423 [5:22:13<7:54:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6238/15423 [5:22:13<7:54:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6239/15423 [5:22:15<7:54:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6239/15423 [5:22:15<7:54:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6240/15423 [5:22:33<7:54:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6240/15423 [5:22:33<7:54:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6241/15423 [5:22:36<7:54:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6241/15423 [5:22:36<7:54:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6242/15423 [5:22:41<7:54:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6242/15423 [5:22:41<7:54:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6243/15423 [5:22:44<7:54:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6243/15423 [5:22:44<7:54:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6244/15423 [5:22:46<7:54:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6244/15423 [5:22:46<7:54:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6245/15423 [5:22:50<7:54:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6245/15423 [5:22:50<7:54:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  40%|▍| 6246/15423 [5:22:54<7:54:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  40%|▍| 6246/15423 [5:22:54<7:54:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6247/15423 [5:22:56<7:54:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6247/15423 [5:22:56<7:54:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6248/15423 [5:23:00<7:54:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6248/15423 [5:23:00<7:54:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6249/15423 [5:23:00<7:54:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6249/15423 [5:23:00<7:54:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6250/15423 [5:23:02<7:54:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6250/15423 [5:23:02<7:54:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6251/15423 [5:23:05<7:54:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6251/15423 [5:23:05<7:54:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6252/15423 [5:23:07<7:53:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6252/15423 [5:23:07<7:53:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6253/15423 [5:23:07<7:53:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6253/15423 [5:23:07<7:53:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6254/15423 [5:23:12<7:53:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6254/15423 [5:23:12<7:53:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6255/15423 [5:23:15<7:53:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6255/15423 [5:23:15<7:53:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6256/15423 [5:23:17<7:53:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6256/15423 [5:23:17<7:53:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6257/15423 [5:23:20<7:53:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6257/15423 [5:23:20<7:53:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6258/15423 [5:23:23<7:53:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6258/15423 [5:23:23<7:53:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6259/15423 [5:23:25<7:53:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6259/15423 [5:23:25<7:53:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6260/15423 [5:23:28<7:53:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6260/15423 [5:23:28<7:53:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6261/15423 [5:23:32<7:53:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6261/15423 [5:23:32<7:53:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6262/15423 [5:23:34<7:53:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6262/15423 [5:23:34<7:53:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6263/15423 [5:23:38<7:53:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6263/15423 [5:23:38<7:53:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6264/15423 [5:23:39<7:53:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6264/15423 [5:23:39<7:53:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6265/15423 [5:23:40<7:53:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6265/15423 [5:23:40<7:53:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6266/15423 [5:23:44<7:53:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6266/15423 [5:23:44<7:53:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6267/15423 [5:23:45<7:53:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6267/15423 [5:23:45<7:53:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6268/15423 [5:23:48<7:52:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6268/15423 [5:23:48<7:52:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6269/15423 [5:23:53<7:52:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6269/15423 [5:23:53<7:52:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6270/15423 [5:23:56<7:52:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6270/15423 [5:23:56<7:52:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6271/15423 [5:23:59<7:52:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6271/15423 [5:23:59<7:52:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6272/15423 [5:24:08<7:52:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6272/15423 [5:24:08<7:52:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6273/15423 [5:24:09<7:52:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6273/15423 [5:24:09<7:52:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6274/15423 [5:24:13<7:52:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6274/15423 [5:24:13<7:52:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6275/15423 [5:24:16<7:52:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6275/15423 [5:24:16<7:52:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6276/15423 [5:24:20<7:52:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6276/15423 [5:24:20<7:52:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6277/15423 [5:24:21<7:52:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6277/15423 [5:24:21<7:52:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6278/15423 [5:24:22<7:52:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6278/15423 [5:24:22<7:52:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6279/15423 [5:24:24<7:52:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6279/15423 [5:24:24<7:52:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6280/15423 [5:24:28<7:52:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6280/15423 [5:24:28<7:52:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6281/15423 [5:24:30<7:52:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6281/15423 [5:24:30<7:52:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6282/15423 [5:24:32<7:52:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6282/15423 [5:24:32<7:52:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6283/15423 [5:24:37<7:52:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6283/15423 [5:24:37<7:52:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6284/15423 [5:24:40<7:52:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6284/15423 [5:24:40<7:52:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6285/15423 [5:24:41<7:52:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6285/15423 [5:24:41<7:52:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6286/15423 [5:24:43<7:51:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6286/15423 [5:24:43<7:51:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6287/15423 [5:24:45<7:51:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6287/15423 [5:24:45<7:51:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6288/15423 [5:24:49<7:51:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6288/15423 [5:24:49<7:51:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6289/15423 [5:24:50<7:51:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6289/15423 [5:24:50<7:51:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6290/15423 [5:24:53<7:51:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6290/15423 [5:24:53<7:51:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6291/15423 [5:24:54<7:51:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6291/15423 [5:24:54<7:51:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6292/15423 [5:24:58<7:51:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6292/15423 [5:24:58<7:51:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6293/15423 [5:25:00<7:51:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6293/15423 [5:25:00<7:51:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6294/15423 [5:25:03<7:51:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6294/15423 [5:25:03<7:51:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6295/15423 [5:25:08<7:51:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6295/15423 [5:25:08<7:51:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6296/15423 [5:25:10<7:51:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6296/15423 [5:25:10<7:51:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6297/15423 [5:25:12<7:51:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6297/15423 [5:25:12<7:51:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6298/15423 [5:25:14<7:51:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6298/15423 [5:25:14<7:51:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6299/15423 [5:25:16<7:51:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6299/15423 [5:25:16<7:51:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6300/15423 [5:25:20<7:51:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6300/15423 [5:25:20<7:51:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6301/15423 [5:25:22<7:51:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6301/15423 [5:25:22<7:51:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6302/15423 [5:25:26<7:51:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6302/15423 [5:25:26<7:51:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6303/15423 [5:25:29<7:50:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6303/15423 [5:25:29<7:50:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6304/15423 [5:25:46<7:51:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6304/15423 [5:25:46<7:51:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6305/15423 [5:25:47<7:51:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6305/15423 [5:25:47<7:51:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6306/15423 [5:25:50<7:51:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6306/15423 [5:25:50<7:51:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6307/15423 [5:25:53<7:51:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6307/15423 [5:25:53<7:51:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6308/15423 [5:25:57<7:51:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6308/15423 [5:25:57<7:51:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6309/15423 [5:26:00<7:50:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6309/15423 [5:26:00<7:50:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6310/15423 [5:26:02<7:50:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6310/15423 [5:26:02<7:50:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6311/15423 [5:26:07<7:50:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6311/15423 [5:26:07<7:50:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6312/15423 [5:26:10<7:50:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6312/15423 [5:26:10<7:50:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6313/15423 [5:26:15<7:50:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6313/15423 [5:26:15<7:50:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6314/15423 [5:26:16<7:50:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6314/15423 [5:26:16<7:50:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6315/15423 [5:26:18<7:50:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6315/15423 [5:26:18<7:50:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6316/15423 [5:26:20<7:50:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6316/15423 [5:26:20<7:50:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6317/15423 [5:26:22<7:50:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6317/15423 [5:26:22<7:50:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6318/15423 [5:26:24<7:50:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6318/15423 [5:26:24<7:50:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6319/15423 [5:26:27<7:50:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6319/15423 [5:26:27<7:50:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6320/15423 [5:26:29<7:50:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6320/15423 [5:26:29<7:50:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6321/15423 [5:26:34<7:50:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6321/15423 [5:26:34<7:50:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6322/15423 [5:26:36<7:50:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6322/15423 [5:26:36<7:50:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6323/15423 [5:26:40<7:50:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6323/15423 [5:26:40<7:50:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6324/15423 [5:26:43<7:50:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6324/15423 [5:26:43<7:50:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6325/15423 [5:26:46<7:50:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6325/15423 [5:26:46<7:50:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6326/15423 [5:26:49<7:49:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6326/15423 [5:26:49<7:49:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6327/15423 [5:26:53<7:49:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6327/15423 [5:26:53<7:49:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6328/15423 [5:26:56<7:49:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6328/15423 [5:26:56<7:49:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6329/15423 [5:27:01<7:49:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6329/15423 [5:27:01<7:49:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6330/15423 [5:27:03<7:49:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6330/15423 [5:27:03<7:49:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6331/15423 [5:27:06<7:49:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6331/15423 [5:27:06<7:49:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6332/15423 [5:27:10<7:49:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6332/15423 [5:27:10<7:49:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6333/15423 [5:27:11<7:49:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6333/15423 [5:27:11<7:49:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6334/15423 [5:27:13<7:49:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6334/15423 [5:27:13<7:49:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6335/15423 [5:27:17<7:49:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6335/15423 [5:27:17<7:49:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6336/15423 [5:27:24<7:49:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6336/15423 [5:27:24<7:49:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6337/15423 [5:27:27<7:49:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6337/15423 [5:27:27<7:49:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6338/15423 [5:27:31<7:49:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6338/15423 [5:27:31<7:49:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6339/15423 [5:27:35<7:49:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6339/15423 [5:27:35<7:49:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6340/15423 [5:27:37<7:49:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6340/15423 [5:27:37<7:49:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6341/15423 [5:27:40<7:49:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6341/15423 [5:27:40<7:49:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6342/15423 [5:27:44<7:49:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6342/15423 [5:27:44<7:49:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6343/15423 [5:27:45<7:49:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6343/15423 [5:27:45<7:49:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6344/15423 [5:27:49<7:49:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6344/15423 [5:27:49<7:49:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6345/15423 [5:27:51<7:49:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6345/15423 [5:27:51<7:49:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6346/15423 [5:27:52<7:48:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6346/15423 [5:27:52<7:48:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6347/15423 [5:27:56<7:48:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6347/15423 [5:27:56<7:48:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6348/15423 [5:28:00<7:48:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6348/15423 [5:28:00<7:48:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6349/15423 [5:28:01<7:48:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6349/15423 [5:28:01<7:48:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6350/15423 [5:28:05<7:48:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6350/15423 [5:28:05<7:48:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6351/15423 [5:28:09<7:48:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6351/15423 [5:28:09<7:48:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6352/15423 [5:28:13<7:48:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6352/15423 [5:28:13<7:48:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6353/15423 [5:28:14<7:48:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6353/15423 [5:28:14<7:48:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6354/15423 [5:28:16<7:48:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6354/15423 [5:28:16<7:48:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6355/15423 [5:28:20<7:48:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6355/15423 [5:28:20<7:48:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6356/15423 [5:28:24<7:48:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6356/15423 [5:28:24<7:48:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6357/15423 [5:28:25<7:48:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6357/15423 [5:28:25<7:48:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6358/15423 [5:28:27<7:48:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6358/15423 [5:28:27<7:48:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6359/15423 [5:28:31<7:48:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6359/15423 [5:28:31<7:48:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6360/15423 [5:28:35<7:48:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6360/15423 [5:28:35<7:48:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6361/15423 [5:28:38<7:48:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6361/15423 [5:28:38<7:48:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6362/15423 [5:28:39<7:48:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6362/15423 [5:28:39<7:48:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6363/15423 [5:28:41<7:48:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6363/15423 [5:28:41<7:48:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6364/15423 [5:28:44<7:47:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6364/15423 [5:28:44<7:47:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6365/15423 [5:28:46<7:47:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6365/15423 [5:28:46<7:47:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6366/15423 [5:28:47<7:47:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6366/15423 [5:28:47<7:47:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6367/15423 [5:28:51<7:47:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6367/15423 [5:28:51<7:47:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6368/15423 [5:29:06<7:47:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6368/15423 [5:29:06<7:47:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6369/15423 [5:29:09<7:47:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6369/15423 [5:29:09<7:47:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6370/15423 [5:29:10<7:47:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6370/15423 [5:29:10<7:47:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6371/15423 [5:29:12<7:47:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6371/15423 [5:29:12<7:47:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6372/15423 [5:29:16<7:47:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6372/15423 [5:29:16<7:47:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6373/15423 [5:29:19<7:47:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6373/15423 [5:29:19<7:47:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6374/15423 [5:29:21<7:47:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6374/15423 [5:29:21<7:47:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6375/15423 [5:29:23<7:47:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6375/15423 [5:29:23<7:47:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6376/15423 [5:29:28<7:47:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6376/15423 [5:29:28<7:47:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6377/15423 [5:29:29<7:47:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6377/15423 [5:29:29<7:47:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6378/15423 [5:29:31<7:47:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6378/15423 [5:29:31<7:47:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6379/15423 [5:29:35<7:47:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6379/15423 [5:29:35<7:47:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6380/15423 [5:29:40<7:47:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6380/15423 [5:29:40<7:47:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6381/15423 [5:29:42<7:47:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6381/15423 [5:29:42<7:47:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6382/15423 [5:29:45<7:47:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6382/15423 [5:29:45<7:47:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6383/15423 [5:29:48<7:47:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6383/15423 [5:29:48<7:47:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6384/15423 [5:29:52<7:47:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6384/15423 [5:29:52<7:47:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6385/15423 [5:29:56<7:47:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6385/15423 [5:29:56<7:47:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6386/15423 [5:30:01<7:47:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6386/15423 [5:30:01<7:47:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6387/15423 [5:30:02<7:46:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6387/15423 [5:30:02<7:46:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6388/15423 [5:30:04<7:46:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6388/15423 [5:30:04<7:46:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6389/15423 [5:30:08<7:46:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6389/15423 [5:30:08<7:46:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6390/15423 [5:30:10<7:46:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6390/15423 [5:30:10<7:46:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6391/15423 [5:30:13<7:46:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6391/15423 [5:30:13<7:46:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6392/15423 [5:30:15<7:46:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6392/15423 [5:30:15<7:46:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6393/15423 [5:30:19<7:46:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6393/15423 [5:30:19<7:46:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6394/15423 [5:30:20<7:46:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6394/15423 [5:30:20<7:46:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6395/15423 [5:30:23<7:46:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6395/15423 [5:30:23<7:46:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6396/15423 [5:30:27<7:46:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6396/15423 [5:30:27<7:46:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6397/15423 [5:30:29<7:46:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6397/15423 [5:30:29<7:46:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6398/15423 [5:30:33<7:46:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6398/15423 [5:30:33<7:46:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6399/15423 [5:30:36<7:46:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6399/15423 [5:30:36<7:46:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  41%|▍| 6400/15423 [5:30:45<7:46:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  41%|▍| 6400/15423 [5:30:45<7:46:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6401/15423 [5:31:11<7:46:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6401/15423 [5:31:11<7:46:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6402/15423 [5:31:12<7:46:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6402/15423 [5:31:12<7:46:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6403/15423 [5:31:15<7:46:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6403/15423 [5:31:15<7:46:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6404/15423 [5:31:17<7:46:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6404/15423 [5:31:17<7:46:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6405/15423 [5:31:18<7:46:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6405/15423 [5:31:18<7:46:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6406/15423 [5:31:22<7:46:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6406/15423 [5:31:22<7:46:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6407/15423 [5:31:24<7:46:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6407/15423 [5:31:24<7:46:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6408/15423 [5:31:26<7:46:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6408/15423 [5:31:26<7:46:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6409/15423 [5:31:29<7:46:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6409/15423 [5:31:29<7:46:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6410/15423 [5:31:32<7:46:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6410/15423 [5:31:32<7:46:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6411/15423 [5:31:34<7:46:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6411/15423 [5:31:34<7:46:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6412/15423 [5:31:36<7:46:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6412/15423 [5:31:36<7:46:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6413/15423 [5:31:39<7:45:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6413/15423 [5:31:39<7:45:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6414/15423 [5:31:41<7:45:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6414/15423 [5:31:41<7:45:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6415/15423 [5:31:45<7:45:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6415/15423 [5:31:45<7:45:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6416/15423 [5:31:48<7:45:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6416/15423 [5:31:48<7:45:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6417/15423 [5:31:50<7:45:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6417/15423 [5:31:50<7:45:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6418/15423 [5:31:53<7:45:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6418/15423 [5:31:53<7:45:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6419/15423 [5:31:55<7:45:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6419/15423 [5:31:55<7:45:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6420/15423 [5:31:58<7:45:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6420/15423 [5:31:58<7:45:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6421/15423 [5:31:59<7:45:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6421/15423 [5:31:59<7:45:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6422/15423 [5:32:01<7:45:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6422/15423 [5:32:01<7:45:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6423/15423 [5:32:02<7:45:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6423/15423 [5:32:02<7:45:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6424/15423 [5:32:04<7:45:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6424/15423 [5:32:04<7:45:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6425/15423 [5:32:09<7:45:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6425/15423 [5:32:09<7:45:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6426/15423 [5:32:10<7:45:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6426/15423 [5:32:10<7:45:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6427/15423 [5:32:14<7:45:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6427/15423 [5:32:14<7:45:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6428/15423 [5:32:17<7:44:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6428/15423 [5:32:17<7:44:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6429/15423 [5:32:19<7:44:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6429/15423 [5:32:19<7:44:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6430/15423 [5:32:22<7:44:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6430/15423 [5:32:22<7:44:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6431/15423 [5:32:26<7:44:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6431/15423 [5:32:26<7:44:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6432/15423 [5:32:41<7:45:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6432/15423 [5:32:41<7:45:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6433/15423 [5:32:43<7:44:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6433/15423 [5:32:43<7:44:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6434/15423 [5:32:44<7:44:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6434/15423 [5:32:44<7:44:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6435/15423 [5:32:45<7:44:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6435/15423 [5:32:45<7:44:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6436/15423 [5:32:48<7:44:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6436/15423 [5:32:48<7:44:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6437/15423 [5:32:51<7:44:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6437/15423 [5:32:51<7:44:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6438/15423 [5:32:55<7:44:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6438/15423 [5:32:55<7:44:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6439/15423 [5:32:57<7:44:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6439/15423 [5:32:57<7:44:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6440/15423 [5:32:58<7:44:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6440/15423 [5:32:58<7:44:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6441/15423 [5:33:01<7:44:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6441/15423 [5:33:01<7:44:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6442/15423 [5:33:05<7:44:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6442/15423 [5:33:05<7:44:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6443/15423 [5:33:07<7:44:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6443/15423 [5:33:07<7:44:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6444/15423 [5:33:08<7:44:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6444/15423 [5:33:08<7:44:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6445/15423 [5:33:10<7:44:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6445/15423 [5:33:10<7:44:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6446/15423 [5:33:12<7:44:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6446/15423 [5:33:12<7:44:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6447/15423 [5:33:16<7:44:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6447/15423 [5:33:16<7:44:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6448/15423 [5:33:20<7:43:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6448/15423 [5:33:20<7:43:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6449/15423 [5:33:22<7:43:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6449/15423 [5:33:22<7:43:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6450/15423 [5:33:25<7:43:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6450/15423 [5:33:25<7:43:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6451/15423 [5:33:26<7:43:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6451/15423 [5:33:26<7:43:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6452/15423 [5:33:29<7:43:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6452/15423 [5:33:29<7:43:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6453/15423 [5:33:31<7:43:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6453/15423 [5:33:31<7:43:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6454/15423 [5:33:35<7:43:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6454/15423 [5:33:35<7:43:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6455/15423 [5:33:37<7:43:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6455/15423 [5:33:37<7:43:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6456/15423 [5:33:41<7:43:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6456/15423 [5:33:41<7:43:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6457/15423 [5:33:42<7:43:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6457/15423 [5:33:42<7:43:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6458/15423 [5:33:45<7:43:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6458/15423 [5:33:45<7:43:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6459/15423 [5:33:48<7:43:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6459/15423 [5:33:48<7:43:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6460/15423 [5:33:49<7:43:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6460/15423 [5:33:49<7:43:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6461/15423 [5:33:51<7:43:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6461/15423 [5:33:51<7:43:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6462/15423 [5:33:52<7:42:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6462/15423 [5:33:52<7:42:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6463/15423 [5:33:54<7:42:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6463/15423 [5:33:54<7:42:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6464/15423 [5:34:20<7:43:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6464/15423 [5:34:20<7:43:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6465/15423 [5:34:23<7:43:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6465/15423 [5:34:23<7:43:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6466/15423 [5:34:27<7:43:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6466/15423 [5:34:27<7:43:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6467/15423 [5:34:31<7:43:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6467/15423 [5:34:31<7:43:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6468/15423 [5:34:35<7:43:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6468/15423 [5:34:35<7:43:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6469/15423 [5:34:39<7:43:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6469/15423 [5:34:39<7:43:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6470/15423 [5:34:40<7:43:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6470/15423 [5:34:40<7:43:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6471/15423 [5:34:42<7:43:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6471/15423 [5:34:42<7:43:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6472/15423 [5:34:45<7:42:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6472/15423 [5:34:45<7:42:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6473/15423 [5:34:48<7:42:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6473/15423 [5:34:48<7:42:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6474/15423 [5:34:49<7:42:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6474/15423 [5:34:49<7:42:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6475/15423 [5:34:51<7:42:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6475/15423 [5:34:51<7:42:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6476/15423 [5:34:53<7:42:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6476/15423 [5:34:53<7:42:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6477/15423 [5:34:55<7:42:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6477/15423 [5:34:55<7:42:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6478/15423 [5:34:59<7:42:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6478/15423 [5:34:59<7:42:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6479/15423 [5:35:01<7:42:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6479/15423 [5:35:01<7:42:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6480/15423 [5:35:06<7:42:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6480/15423 [5:35:06<7:42:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6481/15423 [5:35:08<7:42:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6481/15423 [5:35:08<7:42:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6482/15423 [5:35:12<7:42:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6482/15423 [5:35:12<7:42:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6483/15423 [5:35:14<7:42:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6483/15423 [5:35:14<7:42:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6484/15423 [5:35:16<7:42:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6484/15423 [5:35:16<7:42:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6485/15423 [5:35:16<7:42:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6485/15423 [5:35:16<7:42:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6486/15423 [5:35:20<7:42:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6486/15423 [5:35:20<7:42:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6487/15423 [5:35:22<7:41:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6487/15423 [5:35:22<7:41:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6488/15423 [5:35:24<7:41:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6488/15423 [5:35:24<7:41:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6489/15423 [5:35:28<7:41:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6489/15423 [5:35:28<7:41:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6490/15423 [5:35:29<7:41:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6490/15423 [5:35:29<7:41:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6491/15423 [5:35:34<7:41:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6491/15423 [5:35:34<7:41:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6492/15423 [5:35:37<7:41:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6492/15423 [5:35:37<7:41:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6493/15423 [5:35:37<7:41:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6493/15423 [5:35:37<7:41:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6494/15423 [5:35:42<7:41:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6494/15423 [5:35:42<7:41:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6495/15423 [5:35:42<7:41:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6495/15423 [5:35:42<7:41:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6496/15423 [5:35:57<7:41:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6496/15423 [5:35:57<7:41:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6497/15423 [5:35:59<7:41:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6497/15423 [5:35:59<7:41:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6498/15423 [5:36:00<7:41:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6498/15423 [5:36:00<7:41:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6499/15423 [5:36:01<7:41:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6499/15423 [5:36:01<7:41:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6500/15423 [5:36:02<7:41:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6500/15423 [5:36:02<7:41:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6501/15423 [5:36:04<7:41:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6501/15423 [5:36:04<7:41:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6502/15423 [5:36:07<7:41:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6502/15423 [5:36:07<7:41:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6503/15423 [5:36:12<7:41:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6503/15423 [5:36:12<7:41:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6504/15423 [5:36:16<7:41:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6504/15423 [5:36:16<7:41:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6505/15423 [5:36:19<7:41:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6505/15423 [5:36:19<7:41:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6506/15423 [5:36:23<7:41:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6506/15423 [5:36:23<7:41:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6507/15423 [5:36:26<7:40:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6507/15423 [5:36:26<7:40:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6508/15423 [5:36:27<7:40:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6508/15423 [5:36:27<7:40:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6509/15423 [5:36:30<7:40:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6509/15423 [5:36:30<7:40:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6510/15423 [5:36:31<7:40:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6510/15423 [5:36:31<7:40:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6511/15423 [5:36:34<7:40:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6511/15423 [5:36:34<7:40:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6512/15423 [5:36:38<7:40:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6512/15423 [5:36:38<7:40:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6513/15423 [5:36:39<7:40:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6513/15423 [5:36:39<7:40:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6514/15423 [5:36:41<7:40:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6514/15423 [5:36:41<7:40:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6515/15423 [5:36:44<7:40:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6515/15423 [5:36:44<7:40:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6516/15423 [5:36:47<7:40:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6516/15423 [5:36:47<7:40:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6517/15423 [5:36:51<7:40:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6517/15423 [5:36:51<7:40:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6518/15423 [5:36:56<7:40:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6518/15423 [5:36:56<7:40:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6519/15423 [5:37:00<7:40:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6519/15423 [5:37:00<7:40:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6520/15423 [5:37:02<7:40:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6520/15423 [5:37:02<7:40:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6521/15423 [5:37:03<7:40:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6521/15423 [5:37:03<7:40:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6522/15423 [5:37:05<7:40:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6522/15423 [5:37:05<7:40:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6523/15423 [5:37:08<7:39:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6523/15423 [5:37:08<7:39:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6524/15423 [5:37:11<7:39:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6524/15423 [5:37:11<7:39:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6525/15423 [5:37:14<7:39:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6525/15423 [5:37:14<7:39:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6526/15423 [5:37:16<7:39:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6526/15423 [5:37:16<7:39:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6527/15423 [5:37:18<7:39:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6527/15423 [5:37:18<7:39:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6528/15423 [5:37:37<7:40:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6528/15423 [5:37:37<7:40:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6529/15423 [5:37:39<7:39:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6529/15423 [5:37:39<7:39:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6530/15423 [5:37:43<7:39:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6530/15423 [5:37:43<7:39:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6531/15423 [5:37:47<7:39:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6531/15423 [5:37:47<7:39:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6532/15423 [5:37:51<7:39:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6532/15423 [5:37:51<7:39:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6533/15423 [5:37:55<7:39:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6533/15423 [5:37:55<7:39:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6534/15423 [5:37:57<7:39:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6534/15423 [5:37:57<7:39:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6535/15423 [5:38:01<7:39:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6535/15423 [5:38:01<7:39:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6536/15423 [5:38:05<7:39:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6536/15423 [5:38:05<7:39:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6537/15423 [5:38:07<7:39:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6537/15423 [5:38:07<7:39:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6538/15423 [5:38:11<7:39:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6538/15423 [5:38:11<7:39:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6539/15423 [5:38:13<7:39:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6539/15423 [5:38:13<7:39:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6540/15423 [5:38:15<7:39:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6540/15423 [5:38:15<7:39:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6541/15423 [5:38:19<7:39:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6541/15423 [5:38:19<7:39:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6542/15423 [5:38:20<7:39:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6542/15423 [5:38:20<7:39:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6543/15423 [5:38:23<7:39:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6543/15423 [5:38:23<7:39:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6544/15423 [5:38:24<7:39:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6544/15423 [5:38:24<7:39:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6545/15423 [5:38:28<7:39:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6545/15423 [5:38:28<7:39:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6546/15423 [5:38:31<7:39:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6546/15423 [5:38:31<7:39:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6547/15423 [5:38:32<7:38:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6547/15423 [5:38:32<7:38:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6548/15423 [5:38:36<7:38:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6548/15423 [5:38:36<7:38:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6549/15423 [5:38:38<7:38:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6549/15423 [5:38:38<7:38:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6550/15423 [5:38:41<7:38:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6550/15423 [5:38:41<7:38:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6551/15423 [5:38:42<7:38:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6551/15423 [5:38:42<7:38:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6552/15423 [5:38:43<7:38:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6552/15423 [5:38:43<7:38:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6553/15423 [5:38:45<7:38:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6553/15423 [5:38:45<7:38:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  42%|▍| 6554/15423 [5:38:47<7:38:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  42%|▍| 6554/15423 [5:38:47<7:38:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6555/15423 [5:38:48<7:38:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6555/15423 [5:38:48<7:38:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6556/15423 [5:38:50<7:38:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6556/15423 [5:38:50<7:38:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6557/15423 [5:38:51<7:38:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6557/15423 [5:38:51<7:38:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6558/15423 [5:38:55<7:38:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6558/15423 [5:38:55<7:38:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6559/15423 [5:38:56<7:38:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6559/15423 [5:38:56<7:38:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6560/15423 [5:39:19<7:38:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6560/15423 [5:39:19<7:38:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6561/15423 [5:39:23<7:38:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6561/15423 [5:39:23<7:38:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6562/15423 [5:39:24<7:38:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6562/15423 [5:39:24<7:38:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6563/15423 [5:39:28<7:38:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6563/15423 [5:39:28<7:38:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6564/15423 [5:39:32<7:38:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6564/15423 [5:39:32<7:38:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6565/15423 [5:39:36<7:38:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6565/15423 [5:39:36<7:38:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6566/15423 [5:39:39<7:38:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6566/15423 [5:39:39<7:38:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6567/15423 [5:39:44<7:38:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6567/15423 [5:39:44<7:38:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6568/15423 [5:39:45<7:38:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6568/15423 [5:39:45<7:38:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6569/15423 [5:39:46<7:37:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6569/15423 [5:39:46<7:37:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6570/15423 [5:39:47<7:37:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6570/15423 [5:39:47<7:37:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6571/15423 [5:39:51<7:37:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6571/15423 [5:39:51<7:37:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6572/15423 [5:39:54<7:37:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6572/15423 [5:39:54<7:37:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6573/15423 [5:39:58<7:37:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6573/15423 [5:39:58<7:37:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6574/15423 [5:40:02<7:37:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6574/15423 [5:40:02<7:37:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6575/15423 [5:40:03<7:37:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6575/15423 [5:40:03<7:37:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6576/15423 [5:40:07<7:37:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6576/15423 [5:40:07<7:37:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6577/15423 [5:40:10<7:37:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6577/15423 [5:40:10<7:37:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6578/15423 [5:40:14<7:37:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6578/15423 [5:40:14<7:37:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6579/15423 [5:40:16<7:37:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6579/15423 [5:40:16<7:37:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6580/15423 [5:40:17<7:37:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6580/15423 [5:40:17<7:37:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6581/15423 [5:40:20<7:37:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6581/15423 [5:40:20<7:37:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6582/15423 [5:40:23<7:37:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6582/15423 [5:40:23<7:37:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6583/15423 [5:40:26<7:37:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6583/15423 [5:40:26<7:37:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6584/15423 [5:40:29<7:37:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6584/15423 [5:40:29<7:37:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6585/15423 [5:40:33<7:37:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6585/15423 [5:40:33<7:37:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6586/15423 [5:40:37<7:37:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6586/15423 [5:40:37<7:37:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6587/15423 [5:40:41<7:37:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6587/15423 [5:40:41<7:37:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6588/15423 [5:40:42<7:36:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6588/15423 [5:40:42<7:36:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6589/15423 [5:40:46<7:36:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6589/15423 [5:40:46<7:36:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6590/15423 [5:40:47<7:36:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6590/15423 [5:40:47<7:36:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6591/15423 [5:40:49<7:36:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6591/15423 [5:40:49<7:36:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6592/15423 [5:40:58<7:36:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6592/15423 [5:40:58<7:36:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6593/15423 [5:41:00<7:36:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6593/15423 [5:41:00<7:36:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6594/15423 [5:41:03<7:36:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6594/15423 [5:41:03<7:36:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6595/15423 [5:41:06<7:36:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6595/15423 [5:41:06<7:36:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6596/15423 [5:41:11<7:36:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6596/15423 [5:41:11<7:36:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6597/15423 [5:41:15<7:36:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6597/15423 [5:41:15<7:36:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6598/15423 [5:41:17<7:36:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6598/15423 [5:41:17<7:36:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6599/15423 [5:41:21<7:36:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6599/15423 [5:41:21<7:36:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6600/15423 [5:41:23<7:36:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6600/15423 [5:41:23<7:36:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6601/15423 [5:41:24<7:36:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6601/15423 [5:41:24<7:36:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6602/15423 [5:41:26<7:36:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6602/15423 [5:41:26<7:36:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6603/15423 [5:41:28<7:36:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6603/15423 [5:41:28<7:36:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6604/15423 [5:41:30<7:36:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6604/15423 [5:41:30<7:36:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6605/15423 [5:41:34<7:36:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6605/15423 [5:41:34<7:36:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6606/15423 [5:41:36<7:35:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6606/15423 [5:41:36<7:35:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6607/15423 [5:41:38<7:35:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6607/15423 [5:41:38<7:35:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6608/15423 [5:41:42<7:35:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6608/15423 [5:41:42<7:35:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6609/15423 [5:41:46<7:35:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6609/15423 [5:41:46<7:35:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6610/15423 [5:41:48<7:35:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6610/15423 [5:41:48<7:35:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6611/15423 [5:41:48<7:35:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6611/15423 [5:41:48<7:35:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6612/15423 [5:41:52<7:35:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6612/15423 [5:41:52<7:35:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6613/15423 [5:41:56<7:35:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6613/15423 [5:41:56<7:35:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6614/15423 [5:41:56<7:35:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6614/15423 [5:41:56<7:35:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6615/15423 [5:42:00<7:35:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6615/15423 [5:42:00<7:35:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6616/15423 [5:42:04<7:35:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6616/15423 [5:42:04<7:35:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6617/15423 [5:42:07<7:35:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6617/15423 [5:42:07<7:35:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6618/15423 [5:42:11<7:35:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6618/15423 [5:42:11<7:35:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6619/15423 [5:42:14<7:35:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6619/15423 [5:42:14<7:35:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6620/15423 [5:42:15<7:35:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6620/15423 [5:42:15<7:35:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6621/15423 [5:42:17<7:35:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6621/15423 [5:42:17<7:35:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6622/15423 [5:42:17<7:34:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6622/15423 [5:42:17<7:34:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6623/15423 [5:42:19<7:34:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6623/15423 [5:42:19<7:34:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6624/15423 [5:42:29<7:34:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6624/15423 [5:42:29<7:34:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6625/15423 [5:42:31<7:34:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6625/15423 [5:42:31<7:34:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6626/15423 [5:42:33<7:34:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6626/15423 [5:42:33<7:34:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6627/15423 [5:42:34<7:34:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6627/15423 [5:42:34<7:34:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6628/15423 [5:42:38<7:34:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6628/15423 [5:42:38<7:34:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6629/15423 [5:42:42<7:34:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6629/15423 [5:42:42<7:34:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6630/15423 [5:42:46<7:34:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6630/15423 [5:42:46<7:34:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6631/15423 [5:42:48<7:34:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6631/15423 [5:42:48<7:34:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6632/15423 [5:42:51<7:34:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6632/15423 [5:42:51<7:34:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6633/15423 [5:42:56<7:34:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6633/15423 [5:42:56<7:34:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6634/15423 [5:42:57<7:34:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6634/15423 [5:42:57<7:34:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6635/15423 [5:43:00<7:34:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6635/15423 [5:43:00<7:34:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6636/15423 [5:43:05<7:34:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6636/15423 [5:43:05<7:34:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6637/15423 [5:43:09<7:34:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6637/15423 [5:43:09<7:34:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6638/15423 [5:43:12<7:34:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6638/15423 [5:43:12<7:34:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6639/15423 [5:43:16<7:34:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6639/15423 [5:43:16<7:34:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6640/15423 [5:43:19<7:34:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6640/15423 [5:43:19<7:34:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6641/15423 [5:43:21<7:34:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6641/15423 [5:43:21<7:34:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6642/15423 [5:43:25<7:34:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6642/15423 [5:43:25<7:34:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6643/15423 [5:43:28<7:33:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6643/15423 [5:43:28<7:33:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6644/15423 [5:43:32<7:33:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6644/15423 [5:43:32<7:33:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6645/15423 [5:43:34<7:33:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6645/15423 [5:43:34<7:33:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6646/15423 [5:43:37<7:33:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6646/15423 [5:43:37<7:33:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6647/15423 [5:43:39<7:33:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6647/15423 [5:43:39<7:33:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6648/15423 [5:43:43<7:33:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6648/15423 [5:43:43<7:33:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6649/15423 [5:43:46<7:33:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6649/15423 [5:43:46<7:33:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6650/15423 [5:43:50<7:33:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6650/15423 [5:43:50<7:33:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6651/15423 [5:43:54<7:33:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6651/15423 [5:43:54<7:33:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6652/15423 [5:43:55<7:33:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6652/15423 [5:43:55<7:33:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6653/15423 [5:43:59<7:33:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6653/15423 [5:43:59<7:33:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6654/15423 [5:44:01<7:33:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6654/15423 [5:44:01<7:33:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6655/15423 [5:44:05<7:33:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6655/15423 [5:44:05<7:33:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6656/15423 [5:44:13<7:33:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6656/15423 [5:44:13<7:33:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6657/15423 [5:44:17<7:33:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6657/15423 [5:44:17<7:33:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6658/15423 [5:44:21<7:33:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6658/15423 [5:44:21<7:33:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6659/15423 [5:44:26<7:33:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6659/15423 [5:44:26<7:33:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6660/15423 [5:44:29<7:33:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6660/15423 [5:44:29<7:33:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6661/15423 [5:44:34<7:33:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6661/15423 [5:44:34<7:33:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6662/15423 [5:44:35<7:33:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6662/15423 [5:44:35<7:33:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6663/15423 [5:44:36<7:33:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6663/15423 [5:44:36<7:33:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6664/15423 [5:44:39<7:33:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6664/15423 [5:44:39<7:33:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6665/15423 [5:44:40<7:32:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6665/15423 [5:44:40<7:32:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6666/15423 [5:44:41<7:32:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6666/15423 [5:44:41<7:32:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6667/15423 [5:44:43<7:32:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6667/15423 [5:44:43<7:32:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6668/15423 [5:44:46<7:32:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6668/15423 [5:44:46<7:32:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6669/15423 [5:44:50<7:32:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6669/15423 [5:44:50<7:32:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6670/15423 [5:44:54<7:32:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6670/15423 [5:44:54<7:32:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6671/15423 [5:44:56<7:32:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6671/15423 [5:44:56<7:32:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6672/15423 [5:45:00<7:32:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6672/15423 [5:45:00<7:32:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6673/15423 [5:45:01<7:32:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6673/15423 [5:45:01<7:32:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6674/15423 [5:45:05<7:32:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6674/15423 [5:45:05<7:32:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6675/15423 [5:45:09<7:32:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6675/15423 [5:45:09<7:32:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6676/15423 [5:45:13<7:32:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6676/15423 [5:45:13<7:32:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6677/15423 [5:45:14<7:32:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6677/15423 [5:45:14<7:32:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6678/15423 [5:45:18<7:32:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6678/15423 [5:45:18<7:32:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6679/15423 [5:45:22<7:32:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6679/15423 [5:45:22<7:32:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6680/15423 [5:45:25<7:32:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6680/15423 [5:45:25<7:32:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6681/15423 [5:45:29<7:32:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6681/15423 [5:45:29<7:32:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6682/15423 [5:45:33<7:32:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6682/15423 [5:45:33<7:32:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6683/15423 [5:45:38<7:32:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6683/15423 [5:45:38<7:32:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6684/15423 [5:45:42<7:31:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6684/15423 [5:45:42<7:31:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6685/15423 [5:45:43<7:31:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6685/15423 [5:45:43<7:31:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6686/15423 [5:45:43<7:31:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6686/15423 [5:45:43<7:31:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6687/15423 [5:45:47<7:31:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6687/15423 [5:45:47<7:31:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6688/15423 [5:45:56<7:31:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6688/15423 [5:45:56<7:31:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6689/15423 [5:45:59<7:31:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6689/15423 [5:45:59<7:31:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6690/15423 [5:46:00<7:31:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6690/15423 [5:46:00<7:31:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6691/15423 [5:46:01<7:31:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6691/15423 [5:46:01<7:31:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6692/15423 [5:46:05<7:31:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6692/15423 [5:46:05<7:31:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6693/15423 [5:46:07<7:31:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6693/15423 [5:46:07<7:31:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6694/15423 [5:46:10<7:31:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6694/15423 [5:46:10<7:31:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6695/15423 [5:46:14<7:31:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6695/15423 [5:46:14<7:31:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6696/15423 [5:46:18<7:31:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6696/15423 [5:46:18<7:31:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6697/15423 [5:46:22<7:31:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6697/15423 [5:46:22<7:31:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6698/15423 [5:46:26<7:31:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6698/15423 [5:46:26<7:31:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6699/15423 [5:46:28<7:31:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6699/15423 [5:46:28<7:31:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6700/15423 [5:46:30<7:31:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6700/15423 [5:46:30<7:31:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6701/15423 [5:46:34<7:31:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6701/15423 [5:46:34<7:31:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6702/15423 [5:46:37<7:31:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6702/15423 [5:46:37<7:31:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6703/15423 [5:46:42<7:31:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6703/15423 [5:46:42<7:31:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6704/15423 [5:46:43<7:30:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6704/15423 [5:46:43<7:30:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6705/15423 [5:46:44<7:30:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6705/15423 [5:46:44<7:30:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6706/15423 [5:46:47<7:30:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6706/15423 [5:46:47<7:30:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6707/15423 [5:46:50<7:30:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6707/15423 [5:46:50<7:30:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6708/15423 [5:46:54<7:30:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6708/15423 [5:46:54<7:30:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  43%|▍| 6709/15423 [5:46:56<7:30:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  43%|▍| 6709/15423 [5:46:56<7:30:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6710/15423 [5:46:58<7:30:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6710/15423 [5:46:58<7:30:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6711/15423 [5:46:59<7:30:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6711/15423 [5:46:59<7:30:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6712/15423 [5:47:01<7:30:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6712/15423 [5:47:01<7:30:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6713/15423 [5:47:04<7:30:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6713/15423 [5:47:04<7:30:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6714/15423 [5:47:04<7:30:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6714/15423 [5:47:04<7:30:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6715/15423 [5:47:07<7:30:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6715/15423 [5:47:07<7:30:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6716/15423 [5:47:11<7:30:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6716/15423 [5:47:11<7:30:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6717/15423 [5:47:12<7:30:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6717/15423 [5:47:12<7:30:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6718/15423 [5:47:14<7:29:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6718/15423 [5:47:14<7:29:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6719/15423 [5:47:17<7:29:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6719/15423 [5:47:17<7:29:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6720/15423 [5:47:29<7:30:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6720/15423 [5:47:29<7:30:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6721/15423 [5:47:32<7:29:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6721/15423 [5:47:32<7:29:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6722/15423 [5:47:36<7:29:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6722/15423 [5:47:36<7:29:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6723/15423 [5:47:38<7:29:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6723/15423 [5:47:38<7:29:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6724/15423 [5:47:40<7:29:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6724/15423 [5:47:40<7:29:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6725/15423 [5:47:43<7:29:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6725/15423 [5:47:43<7:29:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6726/15423 [5:47:48<7:29:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6726/15423 [5:47:48<7:29:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6727/15423 [5:47:49<7:29:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6727/15423 [5:47:49<7:29:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6728/15423 [5:47:54<7:29:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6728/15423 [5:47:54<7:29:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6729/15423 [5:47:56<7:29:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6729/15423 [5:47:56<7:29:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6730/15423 [5:48:00<7:29:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6730/15423 [5:48:00<7:29:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6731/15423 [5:48:03<7:29:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6731/15423 [5:48:03<7:29:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6732/15423 [5:48:03<7:29:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6732/15423 [5:48:03<7:29:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6733/15423 [5:48:05<7:29:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6733/15423 [5:48:05<7:29:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6734/15423 [5:48:08<7:29:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6734/15423 [5:48:08<7:29:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6735/15423 [5:48:11<7:29:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6735/15423 [5:48:11<7:29:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6736/15423 [5:48:14<7:29:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6736/15423 [5:48:14<7:29:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6737/15423 [5:48:17<7:29:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6737/15423 [5:48:17<7:29:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6738/15423 [5:48:18<7:28:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6738/15423 [5:48:18<7:28:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6739/15423 [5:48:21<7:28:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6739/15423 [5:48:21<7:28:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6740/15423 [5:48:23<7:28:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6740/15423 [5:48:23<7:28:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6741/15423 [5:48:27<7:28:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6741/15423 [5:48:27<7:28:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6742/15423 [5:48:31<7:28:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6742/15423 [5:48:31<7:28:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6743/15423 [5:48:35<7:28:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6743/15423 [5:48:35<7:28:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6744/15423 [5:48:39<7:28:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6744/15423 [5:48:39<7:28:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6745/15423 [5:48:41<7:28:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6745/15423 [5:48:41<7:28:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6746/15423 [5:48:45<7:28:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6746/15423 [5:48:45<7:28:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6747/15423 [5:48:49<7:28:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6747/15423 [5:48:49<7:28:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6748/15423 [5:48:50<7:28:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6748/15423 [5:48:50<7:28:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6749/15423 [5:48:50<7:28:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6749/15423 [5:48:50<7:28:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6750/15423 [5:48:52<7:28:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6750/15423 [5:48:52<7:28:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6751/15423 [5:48:53<7:28:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6751/15423 [5:48:53<7:28:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6752/15423 [5:49:03<7:28:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6752/15423 [5:49:03<7:28:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6753/15423 [5:49:06<7:28:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6753/15423 [5:49:06<7:28:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6754/15423 [5:49:08<7:28:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6754/15423 [5:49:08<7:28:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6755/15423 [5:49:09<7:28:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6755/15423 [5:49:09<7:28:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6756/15423 [5:49:13<7:27:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6756/15423 [5:49:13<7:27:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6757/15423 [5:49:14<7:27:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6757/15423 [5:49:14<7:27:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6758/15423 [5:49:17<7:27:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6758/15423 [5:49:17<7:27:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6759/15423 [5:49:19<7:27:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6759/15423 [5:49:19<7:27:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6760/15423 [5:49:21<7:27:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6760/15423 [5:49:21<7:27:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6761/15423 [5:49:22<7:27:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6761/15423 [5:49:22<7:27:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6762/15423 [5:49:25<7:27:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6762/15423 [5:49:25<7:27:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6763/15423 [5:49:29<7:27:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6763/15423 [5:49:29<7:27:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6764/15423 [5:49:33<7:27:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6764/15423 [5:49:33<7:27:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6765/15423 [5:49:35<7:27:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6765/15423 [5:49:35<7:27:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6766/15423 [5:49:36<7:27:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6766/15423 [5:49:36<7:27:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6767/15423 [5:49:37<7:27:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6767/15423 [5:49:37<7:27:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6768/15423 [5:49:39<7:27:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6768/15423 [5:49:39<7:27:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6769/15423 [5:49:39<7:27:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6769/15423 [5:49:39<7:27:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6770/15423 [5:49:43<7:26:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6770/15423 [5:49:43<7:26:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6771/15423 [5:49:47<7:26:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6771/15423 [5:49:47<7:26:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6772/15423 [5:49:51<7:26:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6772/15423 [5:49:51<7:26:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6773/15423 [5:49:55<7:26:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6773/15423 [5:49:55<7:26:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6774/15423 [5:49:59<7:26:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6774/15423 [5:49:59<7:26:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6775/15423 [5:50:01<7:26:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6775/15423 [5:50:01<7:26:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6776/15423 [5:50:06<7:26:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6776/15423 [5:50:06<7:26:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6777/15423 [5:50:07<7:26:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6777/15423 [5:50:07<7:26:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6778/15423 [5:50:11<7:26:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6778/15423 [5:50:11<7:26:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6779/15423 [5:50:13<7:26:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6779/15423 [5:50:13<7:26:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6780/15423 [5:50:17<7:26:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6780/15423 [5:50:17<7:26:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6781/15423 [5:50:22<7:26:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6781/15423 [5:50:22<7:26:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6782/15423 [5:50:26<7:26:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6782/15423 [5:50:26<7:26:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6783/15423 [5:50:27<7:26:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6783/15423 [5:50:27<7:26:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6784/15423 [5:50:56<7:26:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6784/15423 [5:50:56<7:26:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6785/15423 [5:50:57<7:26:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6785/15423 [5:50:57<7:26:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6786/15423 [5:51:01<7:26:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6786/15423 [5:51:01<7:26:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6787/15423 [5:51:04<7:26:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6787/15423 [5:51:04<7:26:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6788/15423 [5:51:05<7:26:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6788/15423 [5:51:05<7:26:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6789/15423 [5:51:07<7:26:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6789/15423 [5:51:07<7:26:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6790/15423 [5:51:10<7:26:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6790/15423 [5:51:10<7:26:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6791/15423 [5:51:10<7:26:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6791/15423 [5:51:10<7:26:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6792/15423 [5:51:15<7:26:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6792/15423 [5:51:15<7:26:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6793/15423 [5:51:15<7:26:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6793/15423 [5:51:15<7:26:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6794/15423 [5:51:20<7:26:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6794/15423 [5:51:20<7:26:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6795/15423 [5:51:22<7:26:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6795/15423 [5:51:22<7:26:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6796/15423 [5:51:22<7:26:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6796/15423 [5:51:22<7:26:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6797/15423 [5:51:23<7:25:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6797/15423 [5:51:23<7:25:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6798/15423 [5:51:26<7:25:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6798/15423 [5:51:26<7:25:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6799/15423 [5:51:26<7:25:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6799/15423 [5:51:26<7:25:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6800/15423 [5:51:29<7:25:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6800/15423 [5:51:29<7:25:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6801/15423 [5:51:30<7:25:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6801/15423 [5:51:30<7:25:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6802/15423 [5:51:33<7:25:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6802/15423 [5:51:33<7:25:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6803/15423 [5:51:35<7:25:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6803/15423 [5:51:35<7:25:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6804/15423 [5:51:35<7:25:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6804/15423 [5:51:35<7:25:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6805/15423 [5:51:38<7:25:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6805/15423 [5:51:38<7:25:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6806/15423 [5:51:40<7:25:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6806/15423 [5:51:40<7:25:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6807/15423 [5:51:42<7:25:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6807/15423 [5:51:42<7:25:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6808/15423 [5:51:46<7:25:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6808/15423 [5:51:46<7:25:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6809/15423 [5:51:47<7:25:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6809/15423 [5:51:47<7:25:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6810/15423 [5:51:50<7:24:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6810/15423 [5:51:50<7:24:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6811/15423 [5:51:52<7:24:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6811/15423 [5:51:52<7:24:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6812/15423 [5:51:54<7:24:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6812/15423 [5:51:54<7:24:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6813/15423 [5:51:56<7:24:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6813/15423 [5:51:56<7:24:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6814/15423 [5:52:00<7:24:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6814/15423 [5:52:00<7:24:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6815/15423 [5:52:02<7:24:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6815/15423 [5:52:02<7:24:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6816/15423 [5:52:32<7:25:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6816/15423 [5:52:32<7:25:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6817/15423 [5:52:34<7:25:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6817/15423 [5:52:34<7:25:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6818/15423 [5:52:34<7:24:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6818/15423 [5:52:34<7:24:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6819/15423 [5:52:36<7:24:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6819/15423 [5:52:36<7:24:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6820/15423 [5:52:37<7:24:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6820/15423 [5:52:37<7:24:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6821/15423 [5:52:37<7:24:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6821/15423 [5:52:37<7:24:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6822/15423 [5:52:42<7:24:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6822/15423 [5:52:42<7:24:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6823/15423 [5:52:44<7:24:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6823/15423 [5:52:44<7:24:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6824/15423 [5:52:45<7:24:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6824/15423 [5:52:45<7:24:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|���| 6825/15423 [5:52:48<7:24:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6825/15423 [5:52:48<7:24:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6826/15423 [5:52:50<7:24:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6826/15423 [5:52:50<7:24:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6827/15423 [5:52:53<7:24:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6827/15423 [5:52:53<7:24:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6828/15423 [5:52:55<7:24:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6828/15423 [5:52:55<7:24:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6829/15423 [5:52:56<7:24:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6829/15423 [5:52:56<7:24:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6830/15423 [5:52:59<7:24:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6830/15423 [5:52:59<7:24:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6831/15423 [5:53:01<7:24:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6831/15423 [5:53:01<7:24:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6832/15423 [5:53:04<7:23:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6832/15423 [5:53:04<7:23:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6833/15423 [5:53:07<7:23:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6833/15423 [5:53:07<7:23:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6834/15423 [5:53:09<7:23:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6834/15423 [5:53:09<7:23:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6835/15423 [5:53:11<7:23:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6835/15423 [5:53:11<7:23:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6836/15423 [5:53:13<7:23:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6836/15423 [5:53:13<7:23:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6837/15423 [5:53:14<7:23:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6837/15423 [5:53:14<7:23:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6838/15423 [5:53:16<7:23:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6838/15423 [5:53:16<7:23:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6839/15423 [5:53:20<7:23:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6839/15423 [5:53:20<7:23:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6840/15423 [5:53:22<7:23:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6840/15423 [5:53:22<7:23:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6841/15423 [5:53:25<7:23:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6841/15423 [5:53:25<7:23:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6842/15423 [5:53:29<7:23:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6842/15423 [5:53:29<7:23:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6843/15423 [5:53:30<7:23:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6843/15423 [5:53:30<7:23:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6844/15423 [5:53:33<7:23:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6844/15423 [5:53:33<7:23:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6845/15423 [5:53:35<7:23:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6845/15423 [5:53:35<7:23:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6846/15423 [5:53:37<7:23:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6846/15423 [5:53:37<7:23:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6847/15423 [5:53:38<7:22:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6847/15423 [5:53:38<7:22:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6848/15423 [5:54:02<7:23:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6848/15423 [5:54:02<7:23:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6849/15423 [5:54:04<7:23:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6849/15423 [5:54:04<7:23:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6850/15423 [5:54:08<7:23:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6850/15423 [5:54:08<7:23:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6851/15423 [5:54:11<7:23:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6851/15423 [5:54:11<7:23:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6852/15423 [5:54:15<7:23:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6852/15423 [5:54:15<7:23:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6853/15423 [5:54:17<7:23:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6853/15423 [5:54:17<7:23:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6854/15423 [5:54:21<7:23:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6854/15423 [5:54:21<7:23:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6855/15423 [5:54:25<7:23:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6855/15423 [5:54:25<7:23:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6856/15423 [5:54:29<7:22:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6856/15423 [5:54:29<7:22:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6857/15423 [5:54:33<7:22:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6857/15423 [5:54:33<7:22:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6858/15423 [5:54:37<7:22:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6858/15423 [5:54:37<7:22:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6859/15423 [5:54:41<7:22:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6859/15423 [5:54:41<7:22:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6860/15423 [5:54:44<7:22:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6860/15423 [5:54:44<7:22:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6861/15423 [5:54:47<7:22:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6861/15423 [5:54:47<7:22:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6862/15423 [5:54:51<7:22:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6862/15423 [5:54:51<7:22:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  44%|▍| 6863/15423 [5:54:52<7:22:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  44%|▍| 6863/15423 [5:54:52<7:22:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6864/15423 [5:54:55<7:22:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6864/15423 [5:54:55<7:22:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6865/15423 [5:54:57<7:22:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6865/15423 [5:54:57<7:22:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6866/15423 [5:55:02<7:22:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6866/15423 [5:55:02<7:22:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6867/15423 [5:55:04<7:22:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6867/15423 [5:55:04<7:22:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6868/15423 [5:55:06<7:22:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6868/15423 [5:55:06<7:22:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6869/15423 [5:55:10<7:22:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6869/15423 [5:55:10<7:22:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6870/15423 [5:55:11<7:22:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6870/15423 [5:55:11<7:22:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6871/15423 [5:55:14<7:22:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6871/15423 [5:55:14<7:22:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6872/15423 [5:55:16<7:22:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6872/15423 [5:55:16<7:22:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6873/15423 [5:55:20<7:22:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6873/15423 [5:55:20<7:22:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6874/15423 [5:55:24<7:22:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6874/15423 [5:55:24<7:22:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6875/15423 [5:55:25<7:21:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6875/15423 [5:55:25<7:21:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6876/15423 [5:55:27<7:21:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6876/15423 [5:55:27<7:21:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6877/15423 [5:55:30<7:21:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6877/15423 [5:55:30<7:21:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6878/15423 [5:55:33<7:21:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6878/15423 [5:55:33<7:21:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6879/15423 [5:55:35<7:21:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6879/15423 [5:55:35<7:21:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6880/15423 [5:55:43<7:21:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6880/15423 [5:55:43<7:21:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6881/15423 [5:55:47<7:21:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6881/15423 [5:55:47<7:21:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6882/15423 [5:55:51<7:21:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6882/15423 [5:55:51<7:21:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6883/15423 [5:55:55<7:21:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6883/15423 [5:55:55<7:21:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6884/15423 [5:55:58<7:21:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6884/15423 [5:55:58<7:21:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6885/15423 [5:56:00<7:21:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6885/15423 [5:56:00<7:21:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6886/15423 [5:56:04<7:21:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6886/15423 [5:56:04<7:21:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6887/15423 [5:56:07<7:21:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6887/15423 [5:56:07<7:21:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6888/15423 [5:56:10<7:21:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6888/15423 [5:56:10<7:21:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6889/15423 [5:56:13<7:21:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6889/15423 [5:56:13<7:21:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6890/15423 [5:56:17<7:21:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6890/15423 [5:56:17<7:21:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6891/15423 [5:56:19<7:21:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6891/15423 [5:56:19<7:21:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6892/15423 [5:56:23<7:21:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6892/15423 [5:56:23<7:21:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6893/15423 [5:56:26<7:21:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6893/15423 [5:56:26<7:21:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6894/15423 [5:56:27<7:20:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6894/15423 [5:56:27<7:20:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6895/15423 [5:56:31<7:20:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6895/15423 [5:56:31<7:20:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6896/15423 [5:56:33<7:20:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6896/15423 [5:56:33<7:20:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6897/15423 [5:56:34<7:20:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6897/15423 [5:56:34<7:20:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6898/15423 [5:56:37<7:20:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6898/15423 [5:56:37<7:20:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6899/15423 [5:56:38<7:20:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6899/15423 [5:56:38<7:20:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6900/15423 [5:56:40<7:20:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6900/15423 [5:56:40<7:20:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6901/15423 [5:56:43<7:20:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6901/15423 [5:56:43<7:20:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6902/15423 [5:56:46<7:20:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6902/15423 [5:56:46<7:20:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6903/15423 [5:56:50<7:20:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6903/15423 [5:56:50<7:20:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6904/15423 [5:56:53<7:20:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6904/15423 [5:56:53<7:20:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6905/15423 [5:56:56<7:20:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6905/15423 [5:56:56<7:20:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6906/15423 [5:56:57<7:20:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6906/15423 [5:56:57<7:20:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6907/15423 [5:56:59<7:20:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6907/15423 [5:56:59<7:20:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6908/15423 [5:57:00<7:20:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6908/15423 [5:57:00<7:20:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6909/15423 [5:57:01<7:19:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6909/15423 [5:57:01<7:19:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6910/15423 [5:57:05<7:19:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6910/15423 [5:57:05<7:19:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6911/15423 [5:57:07<7:19:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6911/15423 [5:57:07<7:19:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6912/15423 [5:57:23<7:20:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6912/15423 [5:57:23<7:20:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6913/15423 [5:57:24<7:19:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6913/15423 [5:57:24<7:19:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6914/15423 [5:57:25<7:19:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6914/15423 [5:57:25<7:19:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6915/15423 [5:57:29<7:19:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6915/15423 [5:57:29<7:19:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6916/15423 [5:57:31<7:19:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6916/15423 [5:57:31<7:19:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6917/15423 [5:57:35<7:19:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6917/15423 [5:57:35<7:19:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6918/15423 [5:57:38<7:19:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6918/15423 [5:57:38<7:19:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6919/15423 [5:57:39<7:19:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6919/15423 [5:57:39<7:19:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6920/15423 [5:57:42<7:19:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6920/15423 [5:57:42<7:19:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6921/15423 [5:57:45<7:19:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6921/15423 [5:57:45<7:19:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6922/15423 [5:57:47<7:19:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6922/15423 [5:57:47<7:19:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6923/15423 [5:57:50<7:19:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6923/15423 [5:57:50<7:19:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6924/15423 [5:57:54<7:19:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6924/15423 [5:57:54<7:19:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6925/15423 [5:57:57<7:19:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6925/15423 [5:57:57<7:19:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6926/15423 [5:57:59<7:19:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6926/15423 [5:57:59<7:19:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6927/15423 [5:58:04<7:19:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6927/15423 [5:58:04<7:19:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6928/15423 [5:58:07<7:19:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6928/15423 [5:58:07<7:19:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6929/15423 [5:58:11<7:19:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6929/15423 [5:58:11<7:19:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6930/15423 [5:58:13<7:19:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6930/15423 [5:58:13<7:19:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6931/15423 [5:58:15<7:18:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6931/15423 [5:58:15<7:18:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6932/15423 [5:58:17<7:18:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6932/15423 [5:58:17<7:18:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6933/15423 [5:58:19<7:18:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6933/15423 [5:58:19<7:18:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6934/15423 [5:58:21<7:18:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6934/15423 [5:58:21<7:18:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6935/15423 [5:58:25<7:18:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6935/15423 [5:58:25<7:18:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6936/15423 [5:58:28<7:18:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6936/15423 [5:58:28<7:18:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6937/15423 [5:58:29<7:18:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6937/15423 [5:58:29<7:18:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6938/15423 [5:58:33<7:18:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6938/15423 [5:58:33<7:18:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6939/15423 [5:58:35<7:18:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6939/15423 [5:58:35<7:18:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6940/15423 [5:58:37<7:18:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6940/15423 [5:58:37<7:18:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6941/15423 [5:58:41<7:18:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6941/15423 [5:58:41<7:18:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6942/15423 [5:58:44<7:18:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6942/15423 [5:58:44<7:18:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6943/15423 [5:58:46<7:18:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6943/15423 [5:58:46<7:18:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6944/15423 [5:59:09<7:18:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6944/15423 [5:59:09<7:18:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6945/15423 [5:59:13<7:18:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6945/15423 [5:59:13<7:18:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6946/15423 [5:59:14<7:18:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6946/15423 [5:59:14<7:18:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6947/15423 [5:59:17<7:18:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6947/15423 [5:59:17<7:18:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6948/15423 [5:59:21<7:18:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6948/15423 [5:59:21<7:18:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6949/15423 [5:59:22<7:18:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6949/15423 [5:59:22<7:18:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6950/15423 [5:59:26<7:18:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6950/15423 [5:59:26<7:18:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6951/15423 [5:59:30<7:18:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6951/15423 [5:59:30<7:18:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6952/15423 [5:59:35<7:18:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6952/15423 [5:59:35<7:18:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6953/15423 [5:59:39<7:18:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6953/15423 [5:59:39<7:18:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6954/15423 [5:59:40<7:18:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6954/15423 [5:59:40<7:18:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6955/15423 [5:59:44<7:18:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6955/15423 [5:59:44<7:18:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6956/15423 [5:59:45<7:17:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6956/15423 [5:59:45<7:17:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6957/15423 [5:59:48<7:17:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6957/15423 [5:59:48<7:17:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6958/15423 [5:59:51<7:17:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6958/15423 [5:59:51<7:17:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6959/15423 [5:59:55<7:17:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6959/15423 [5:59:55<7:17:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6960/15423 [5:59:59<7:17:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6960/15423 [5:59:59<7:17:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6961/15423 [6:00:00<7:17:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6961/15423 [6:00:00<7:17:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6962/15423 [6:00:02<7:17:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6962/15423 [6:00:02<7:17:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6963/15423 [6:00:06<7:17:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6963/15423 [6:00:06<7:17:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6964/15423 [6:00:07<7:17:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6964/15423 [6:00:07<7:17:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6965/15423 [6:00:09<7:17:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6965/15423 [6:00:09<7:17:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6966/15423 [6:00:11<7:17:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6966/15423 [6:00:11<7:17:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6967/15423 [6:00:14<7:17:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6967/15423 [6:00:14<7:17:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6968/15423 [6:00:18<7:17:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6968/15423 [6:00:18<7:17:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6969/15423 [6:00:18<7:17:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6969/15423 [6:00:18<7:17:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6970/15423 [6:00:20<7:17:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6970/15423 [6:00:20<7:17:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6971/15423 [6:00:21<7:16:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6971/15423 [6:00:21<7:16:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6972/15423 [6:00:23<7:16:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6972/15423 [6:00:23<7:16:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6973/15423 [6:00:26<7:16:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6973/15423 [6:00:26<7:16:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6974/15423 [6:00:28<7:16:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6974/15423 [6:00:28<7:16:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6975/15423 [6:00:30<7:16:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6975/15423 [6:00:30<7:16:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6976/15423 [6:00:44<7:16:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6976/15423 [6:00:44<7:16:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6977/15423 [6:00:47<7:16:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6977/15423 [6:00:47<7:16:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6978/15423 [6:00:50<7:16:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6978/15423 [6:00:50<7:16:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6979/15423 [6:00:51<7:16:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6979/15423 [6:00:51<7:16:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6980/15423 [6:00:56<7:16:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6980/15423 [6:00:56<7:16:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6981/15423 [6:00:59<7:16:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6981/15423 [6:00:59<7:16:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6982/15423 [6:01:00<7:16:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6982/15423 [6:01:00<7:16:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6983/15423 [6:01:03<7:16:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6983/15423 [6:01:03<7:16:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6984/15423 [6:01:05<7:16:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6984/15423 [6:01:05<7:16:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6985/15423 [6:01:07<7:16:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6985/15423 [6:01:07<7:16:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6986/15423 [6:01:10<7:16:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6986/15423 [6:01:10<7:16:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6987/15423 [6:01:14<7:16:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6987/15423 [6:01:14<7:16:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6988/15423 [6:01:17<7:16:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6988/15423 [6:01:17<7:16:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6989/15423 [6:01:19<7:16:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6989/15423 [6:01:19<7:16:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6990/15423 [6:01:23<7:15:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6990/15423 [6:01:23<7:15:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6991/15423 [6:01:27<7:15:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6991/15423 [6:01:27<7:15:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6992/15423 [6:01:32<7:15:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6992/15423 [6:01:32<7:15:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6993/15423 [6:01:34<7:15:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6993/15423 [6:01:34<7:15:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6994/15423 [6:01:37<7:15:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6994/15423 [6:01:37<7:15:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6995/15423 [6:01:40<7:15:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6995/15423 [6:01:40<7:15:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6996/15423 [6:01:44<7:15:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6996/15423 [6:01:44<7:15:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6997/15423 [6:01:47<7:15:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6997/15423 [6:01:47<7:15:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6998/15423 [6:01:48<7:15:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6998/15423 [6:01:48<7:15:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 6999/15423 [6:01:50<7:15:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 6999/15423 [6:01:50<7:15:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7000/15423 [6:01:52<7:15:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 7000/15423 [6:01:52<7:15:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7001/15423 [6:01:55<7:15:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 7001/15423 [6:01:55<7:15:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7002/15423 [6:01:59<7:15:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 7002/15423 [6:01:59<7:15:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7003/15423 [6:02:00<7:15:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 7003/15423 [6:02:00<7:15:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7004/15423 [6:02:05<7:15:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 7004/15423 [6:02:05<7:15:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7005/15423 [6:02:07<7:15:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 7005/15423 [6:02:07<7:15:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7006/15423 [6:02:09<7:15:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 7006/15423 [6:02:09<7:15:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7007/15423 [6:02:11<7:15:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 7007/15423 [6:02:11<7:15:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7008/15423 [6:02:20<7:15:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 7008/15423 [6:02:20<7:15:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7009/15423 [6:02:23<7:15:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 7009/15423 [6:02:23<7:15:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7010/15423 [6:02:26<7:14:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 7010/15423 [6:02:26<7:14:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7011/15423 [6:02:29<7:14:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 7011/15423 [6:02:29<7:14:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7012/15423 [6:02:33<7:14:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 7012/15423 [6:02:33<7:14:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7013/15423 [6:02:36<7:14:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 7013/15423 [6:02:36<7:14:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7014/15423 [6:02:37<7:14:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 7014/15423 [6:02:37<7:14:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7015/15423 [6:02:40<7:14:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 7015/15423 [6:02:40<7:14:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7016/15423 [6:02:45<7:14:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7016/15423 [6:02:45<7:14:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  45%|▍| 7017/15423 [6:02:46<7:14:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  45%|▍| 7017/15423 [6:02:46<7:14:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7018/15423 [6:02:49<7:14:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7018/15423 [6:02:49<7:14:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7019/15423 [6:02:50<7:14:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7019/15423 [6:02:50<7:14:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7020/15423 [6:02:54<7:14:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7020/15423 [6:02:54<7:14:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7021/15423 [6:02:59<7:14:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7021/15423 [6:02:59<7:14:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7022/15423 [6:03:02<7:14:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7022/15423 [6:03:02<7:14:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7023/15423 [6:03:04<7:14:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7023/15423 [6:03:04<7:14:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7024/15423 [6:03:06<7:14:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7024/15423 [6:03:06<7:14:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7025/15423 [6:03:09<7:14:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7025/15423 [6:03:09<7:14:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7026/15423 [6:03:11<7:14:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7026/15423 [6:03:11<7:14:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7027/15423 [6:03:15<7:14:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7027/15423 [6:03:15<7:14:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7028/15423 [6:03:16<7:13:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7028/15423 [6:03:16<7:13:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7029/15423 [6:03:20<7:13:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7029/15423 [6:03:20<7:13:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7030/15423 [6:03:22<7:13:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7030/15423 [6:03:22<7:13:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7031/15423 [6:03:24<7:13:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7031/15423 [6:03:24<7:13:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7032/15423 [6:03:28<7:13:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7032/15423 [6:03:28<7:13:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7033/15423 [6:03:32<7:13:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7033/15423 [6:03:32<7:13:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7034/15423 [6:03:35<7:13:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7034/15423 [6:03:35<7:13:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7035/15423 [6:03:39<7:13:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7035/15423 [6:03:39<7:13:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7036/15423 [6:03:41<7:13:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7036/15423 [6:03:41<7:13:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7037/15423 [6:03:45<7:13:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7037/15423 [6:03:45<7:13:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7038/15423 [6:03:49<7:13:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7038/15423 [6:03:49<7:13:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7039/15423 [6:03:53<7:13:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7039/15423 [6:03:53<7:13:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7040/15423 [6:04:01<7:13:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7040/15423 [6:04:01<7:13:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7041/15423 [6:04:05<7:13:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7041/15423 [6:04:05<7:13:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7042/15423 [6:04:07<7:13:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7042/15423 [6:04:07<7:13:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7043/15423 [6:04:11<7:13:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7043/15423 [6:04:11<7:13:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7044/15423 [6:04:14<7:13:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7044/15423 [6:04:14<7:13:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7045/15423 [6:04:16<7:13:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7045/15423 [6:04:16<7:13:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7046/15423 [6:04:19<7:13:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7046/15423 [6:04:19<7:13:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7047/15423 [6:04:23<7:13:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7047/15423 [6:04:23<7:13:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7048/15423 [6:04:28<7:13:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7048/15423 [6:04:28<7:13:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7049/15423 [6:04:29<7:13:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7049/15423 [6:04:29<7:13:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7050/15423 [6:04:32<7:12:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7050/15423 [6:04:32<7:12:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7051/15423 [6:04:35<7:12:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7051/15423 [6:04:35<7:12:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7052/15423 [6:04:39<7:12:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7052/15423 [6:04:39<7:12:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7053/15423 [6:04:41<7:12:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7053/15423 [6:04:41<7:12:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7054/15423 [6:04:43<7:12:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7054/15423 [6:04:43<7:12:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7055/15423 [6:04:45<7:12:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7055/15423 [6:04:45<7:12:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7056/15423 [6:04:50<7:12:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7056/15423 [6:04:50<7:12:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7057/15423 [6:04:54<7:12:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7057/15423 [6:04:54<7:12:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7058/15423 [6:04:57<7:12:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7058/15423 [6:04:57<7:12:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7059/15423 [6:04:58<7:12:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7059/15423 [6:04:58<7:12:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7060/15423 [6:04:59<7:12:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7060/15423 [6:04:59<7:12:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7061/15423 [6:05:04<7:12:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7061/15423 [6:05:04<7:12:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7062/15423 [6:05:07<7:12:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7062/15423 [6:05:07<7:12:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7063/15423 [6:05:08<7:12:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7063/15423 [6:05:08<7:12:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7064/15423 [6:05:13<7:12:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7064/15423 [6:05:13<7:12:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7065/15423 [6:05:16<7:12:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7065/15423 [6:05:16<7:12:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7066/15423 [6:05:18<7:12:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7066/15423 [6:05:18<7:12:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7067/15423 [6:05:20<7:11:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7067/15423 [6:05:20<7:11:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7068/15423 [6:05:24<7:11:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7068/15423 [6:05:24<7:11:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7069/15423 [6:05:26<7:11:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7069/15423 [6:05:26<7:11:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7070/15423 [6:05:30<7:11:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7070/15423 [6:05:30<7:11:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7071/15423 [6:05:31<7:11:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7071/15423 [6:05:31<7:11:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7072/15423 [6:05:40<7:11:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7072/15423 [6:05:40<7:11:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7073/15423 [6:05:41<7:11:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7073/15423 [6:05:41<7:11:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7074/15423 [6:05:42<7:11:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7074/15423 [6:05:42<7:11:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7075/15423 [6:05:43<7:11:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7075/15423 [6:05:43<7:11:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7076/15423 [6:05:45<7:11:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7076/15423 [6:05:45<7:11:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7077/15423 [6:05:46<7:11:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7077/15423 [6:05:46<7:11:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7078/15423 [6:05:48<7:11:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7078/15423 [6:05:48<7:11:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7079/15423 [6:05:52<7:11:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7079/15423 [6:05:52<7:11:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7080/15423 [6:05:56<7:11:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7080/15423 [6:05:56<7:11:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7081/15423 [6:05:57<7:11:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7081/15423 [6:05:57<7:11:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7082/15423 [6:06:01<7:11:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7082/15423 [6:06:01<7:11:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7083/15423 [6:06:04<7:11:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7083/15423 [6:06:04<7:11:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7084/15423 [6:06:09<7:11:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7084/15423 [6:06:09<7:11:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7085/15423 [6:06:13<7:10:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7085/15423 [6:06:13<7:10:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7086/15423 [6:06:14<7:10:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7086/15423 [6:06:14<7:10:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7087/15423 [6:06:16<7:10:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7087/15423 [6:06:16<7:10:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7088/15423 [6:06:18<7:10:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7088/15423 [6:06:18<7:10:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7089/15423 [6:06:18<7:10:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7089/15423 [6:06:18<7:10:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7090/15423 [6:06:21<7:10:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7090/15423 [6:06:21<7:10:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7091/15423 [6:06:23<7:10:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7091/15423 [6:06:23<7:10:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7092/15423 [6:06:28<7:10:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7092/15423 [6:06:28<7:10:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7093/15423 [6:06:32<7:10:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7093/15423 [6:06:32<7:10:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7094/15423 [6:06:36<7:10:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7094/15423 [6:06:36<7:10:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7095/15423 [6:06:37<7:10:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7095/15423 [6:06:37<7:10:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7096/15423 [6:06:38<7:10:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7096/15423 [6:06:38<7:10:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7097/15423 [6:06:42<7:10:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7097/15423 [6:06:42<7:10:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7098/15423 [6:06:44<7:10:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7098/15423 [6:06:44<7:10:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7099/15423 [6:06:46<7:10:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7099/15423 [6:06:46<7:10:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7100/15423 [6:06:48<7:09:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7100/15423 [6:06:48<7:09:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7101/15423 [6:06:51<7:09:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7101/15423 [6:06:51<7:09:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7102/15423 [6:06:54<7:09:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7102/15423 [6:06:54<7:09:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7103/15423 [6:06:56<7:09:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7103/15423 [6:06:56<7:09:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7104/15423 [6:07:18<7:10:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7104/15423 [6:07:18<7:10:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7105/15423 [6:07:22<7:10:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7105/15423 [6:07:22<7:10:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7106/15423 [6:07:26<7:10:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7106/15423 [6:07:26<7:10:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7107/15423 [6:07:28<7:09:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7107/15423 [6:07:28<7:09:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7108/15423 [6:07:31<7:09:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7108/15423 [6:07:31<7:09:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7109/15423 [6:07:35<7:09:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7109/15423 [6:07:35<7:09:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7110/15423 [6:07:39<7:09:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7110/15423 [6:07:39<7:09:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7111/15423 [6:07:42<7:09:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7111/15423 [6:07:42<7:09:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7112/15423 [6:07:45<7:09:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7112/15423 [6:07:45<7:09:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7113/15423 [6:07:48<7:09:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7113/15423 [6:07:48<7:09:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7114/15423 [6:07:52<7:09:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7114/15423 [6:07:52<7:09:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7115/15423 [6:07:54<7:09:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7115/15423 [6:07:54<7:09:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7116/15423 [6:07:59<7:09:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7116/15423 [6:07:59<7:09:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7117/15423 [6:08:02<7:09:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7117/15423 [6:08:02<7:09:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7118/15423 [6:08:05<7:09:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7118/15423 [6:08:05<7:09:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7119/15423 [6:08:07<7:09:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7119/15423 [6:08:07<7:09:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7120/15423 [6:08:09<7:09:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7120/15423 [6:08:09<7:09:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7121/15423 [6:08:10<7:09:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7121/15423 [6:08:10<7:09:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7122/15423 [6:08:11<7:09:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7122/15423 [6:08:11<7:09:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7123/15423 [6:08:14<7:09:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7123/15423 [6:08:14<7:09:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7124/15423 [6:08:18<7:09:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7124/15423 [6:08:18<7:09:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7125/15423 [6:08:22<7:09:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7125/15423 [6:08:22<7:09:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7126/15423 [6:08:26<7:08:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7126/15423 [6:08:26<7:08:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7127/15423 [6:08:29<7:08:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7127/15423 [6:08:29<7:08:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7128/15423 [6:08:33<7:08:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7128/15423 [6:08:33<7:08:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7129/15423 [6:08:37<7:08:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7129/15423 [6:08:37<7:08:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7130/15423 [6:08:38<7:08:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7130/15423 [6:08:38<7:08:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7131/15423 [6:08:40<7:08:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7131/15423 [6:08:40<7:08:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7132/15423 [6:08:44<7:08:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7132/15423 [6:08:44<7:08:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7133/15423 [6:08:46<7:08:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7133/15423 [6:08:46<7:08:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7134/15423 [6:08:48<7:08:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7134/15423 [6:08:48<7:08:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7135/15423 [6:08:52<7:08:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7135/15423 [6:08:52<7:08:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7136/15423 [6:09:01<7:08:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7136/15423 [6:09:01<7:08:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7137/15423 [6:09:05<7:08:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7137/15423 [6:09:05<7:08:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7138/15423 [6:09:09<7:08:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7138/15423 [6:09:09<7:08:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7139/15423 [6:09:13<7:08:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7139/15423 [6:09:13<7:08:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7140/15423 [6:09:16<7:08:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7140/15423 [6:09:16<7:08:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7141/15423 [6:09:19<7:08:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7141/15423 [6:09:19<7:08:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7142/15423 [6:09:23<7:08:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7142/15423 [6:09:23<7:08:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7143/15423 [6:09:27<7:08:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7143/15423 [6:09:27<7:08:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7144/15423 [6:09:30<7:08:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7144/15423 [6:09:30<7:08:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7145/15423 [6:09:35<7:08:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7145/15423 [6:09:35<7:08:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7146/15423 [6:09:37<7:08:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7146/15423 [6:09:37<7:08:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7147/15423 [6:09:38<7:08:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7147/15423 [6:09:38<7:08:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7148/15423 [6:09:40<7:07:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7148/15423 [6:09:40<7:07:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7149/15423 [6:09:43<7:07:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7149/15423 [6:09:43<7:07:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7150/15423 [6:09:44<7:07:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7150/15423 [6:09:44<7:07:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7151/15423 [6:09:49<7:07:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7151/15423 [6:09:49<7:07:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7152/15423 [6:09:53<7:07:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7152/15423 [6:09:53<7:07:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7153/15423 [6:09:54<7:07:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7153/15423 [6:09:54<7:07:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7154/15423 [6:09:56<7:07:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7154/15423 [6:09:56<7:07:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7155/15423 [6:10:01<7:07:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7155/15423 [6:10:01<7:07:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7156/15423 [6:10:03<7:07:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7156/15423 [6:10:03<7:07:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7157/15423 [6:10:04<7:07:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7157/15423 [6:10:04<7:07:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7158/15423 [6:10:09<7:07:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7158/15423 [6:10:09<7:07:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7159/15423 [6:10:13<7:07:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7159/15423 [6:10:13<7:07:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7160/15423 [6:10:15<7:07:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7160/15423 [6:10:15<7:07:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7161/15423 [6:10:19<7:07:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7161/15423 [6:10:19<7:07:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7162/15423 [6:10:21<7:07:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7162/15423 [6:10:21<7:07:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7163/15423 [6:10:24<7:07:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7163/15423 [6:10:24<7:07:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7164/15423 [6:10:25<7:07:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7164/15423 [6:10:25<7:07:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7165/15423 [6:10:28<7:06:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7165/15423 [6:10:28<7:06:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7166/15423 [6:10:31<7:06:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7166/15423 [6:10:31<7:06:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7167/15423 [6:10:34<7:06:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7167/15423 [6:10:34<7:06:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7168/15423 [6:10:42<7:06:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7168/15423 [6:10:42<7:06:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7169/15423 [6:10:46<7:06:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7169/15423 [6:10:46<7:06:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7170/15423 [6:10:46<7:06:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7170/15423 [6:10:46<7:06:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  46%|▍| 7171/15423 [6:10:51<7:06:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  46%|▍| 7171/15423 [6:10:51<7:06:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7172/15423 [6:10:51<7:06:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7172/15423 [6:10:51<7:06:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7173/15423 [6:10:53<7:06:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7173/15423 [6:10:53<7:06:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7174/15423 [6:10:57<7:06:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7174/15423 [6:10:57<7:06:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7175/15423 [6:11:01<7:06:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7175/15423 [6:11:01<7:06:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7176/15423 [6:11:02<7:06:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7176/15423 [6:11:02<7:06:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7177/15423 [6:11:06<7:06:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7177/15423 [6:11:06<7:06:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7178/15423 [6:11:07<7:06:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7178/15423 [6:11:07<7:06:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7179/15423 [6:11:11<7:06:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7179/15423 [6:11:11<7:06:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7180/15423 [6:11:13<7:06:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7180/15423 [6:11:13<7:06:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7181/15423 [6:11:14<7:06:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7181/15423 [6:11:14<7:06:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7182/15423 [6:11:18<7:06:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7182/15423 [6:11:18<7:06:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7183/15423 [6:11:21<7:06:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7183/15423 [6:11:21<7:06:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7184/15423 [6:11:24<7:05:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7184/15423 [6:11:24<7:05:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7185/15423 [6:11:29<7:05:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7185/15423 [6:11:29<7:05:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7186/15423 [6:11:31<7:05:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7186/15423 [6:11:31<7:05:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7187/15423 [6:11:35<7:05:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7187/15423 [6:11:35<7:05:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7188/15423 [6:11:38<7:05:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7188/15423 [6:11:38<7:05:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7189/15423 [6:11:40<7:05:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7189/15423 [6:11:40<7:05:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7190/15423 [6:11:42<7:05:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7190/15423 [6:11:42<7:05:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7191/15423 [6:11:44<7:05:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7191/15423 [6:11:44<7:05:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7192/15423 [6:11:48<7:05:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7192/15423 [6:11:48<7:05:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7193/15423 [6:11:49<7:05:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7193/15423 [6:11:49<7:05:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7194/15423 [6:11:53<7:05:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7194/15423 [6:11:53<7:05:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7195/15423 [6:11:55<7:05:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7195/15423 [6:11:55<7:05:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7196/15423 [6:11:57<7:05:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7196/15423 [6:11:57<7:05:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7197/15423 [6:12:01<7:05:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7197/15423 [6:12:01<7:05:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7198/15423 [6:12:05<7:05:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7198/15423 [6:12:05<7:05:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7199/15423 [6:12:05<7:05:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7199/15423 [6:12:05<7:05:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7200/15423 [6:12:24<7:05:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7200/15423 [6:12:24<7:05:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7201/15423 [6:12:48<7:05:39,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7201/15423 [6:12:48<7:05:39,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7202/15423 [6:12:52<7:05:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7202/15423 [6:12:52<7:05:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7203/15423 [6:12:57<7:05:36,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7203/15423 [6:12:57<7:05:36,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7204/15423 [6:12:58<7:05:31,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7204/15423 [6:12:58<7:05:31,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7205/15423 [6:13:02<7:05:29,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7205/15423 [6:13:02<7:05:29,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7206/15423 [6:13:04<7:05:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7206/15423 [6:13:04<7:05:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7207/15423 [6:13:05<7:05:19,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7207/15423 [6:13:05<7:05:19,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7208/15423 [6:13:07<7:05:14,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7208/15423 [6:13:07<7:05:14,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7209/15423 [6:13:08<7:05:10,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7209/15423 [6:13:08<7:05:10,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7210/15423 [6:13:12<7:05:07,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7210/15423 [6:13:12<7:05:07,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7211/15423 [6:13:13<7:05:02,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7211/15423 [6:13:13<7:05:02,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7212/15423 [6:13:16<7:04:58,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7212/15423 [6:13:16<7:04:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7213/15423 [6:13:20<7:04:56,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7213/15423 [6:13:20<7:04:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7214/15423 [6:13:24<7:04:54,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7214/15423 [6:13:24<7:04:54,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7215/15423 [6:13:26<7:04:50,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7215/15423 [6:13:26<7:04:50,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7216/15423 [6:13:28<7:04:46,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7216/15423 [6:13:28<7:04:46,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7217/15423 [6:13:30<7:04:41,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7217/15423 [6:13:30<7:04:41,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7218/15423 [6:13:33<7:04:37,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7218/15423 [6:13:33<7:04:37,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7219/15423 [6:13:37<7:04:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7219/15423 [6:13:37<7:04:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7220/15423 [6:13:39<7:04:31,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7220/15423 [6:13:39<7:04:31,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7221/15423 [6:13:43<7:04:29,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7221/15423 [6:13:43<7:04:29,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7222/15423 [6:13:44<7:04:24,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7222/15423 [6:13:44<7:04:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7223/15423 [6:13:45<7:04:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7223/15423 [6:13:45<7:04:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7224/15423 [6:13:45<7:04:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7224/15423 [6:13:45<7:04:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7225/15423 [6:13:49<7:04:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7225/15423 [6:13:49<7:04:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7226/15423 [6:13:54<7:04:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7226/15423 [6:13:54<7:04:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7227/15423 [6:13:57<7:04:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7227/15423 [6:13:57<7:04:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7228/15423 [6:13:58<7:04:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7228/15423 [6:13:58<7:04:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7229/15423 [6:14:02<7:03:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7229/15423 [6:14:02<7:03:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7230/15423 [6:14:06<7:03:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7230/15423 [6:14:06<7:03:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7231/15423 [6:14:07<7:03:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7231/15423 [6:14:07<7:03:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7232/15423 [6:14:17<7:03:55,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7232/15423 [6:14:17<7:03:55,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7233/15423 [6:14:22<7:03:54,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7233/15423 [6:14:22<7:03:54,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7234/15423 [6:14:22<7:03:48,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7234/15423 [6:14:22<7:03:48,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7235/15423 [6:14:26<7:03:45,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7235/15423 [6:14:26<7:03:45,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7236/15423 [6:14:30<7:03:43,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7236/15423 [6:14:30<7:03:43,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7237/15423 [6:14:31<7:03:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7237/15423 [6:14:31<7:03:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7238/15423 [6:14:35<7:03:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7238/15423 [6:14:35<7:03:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7239/15423 [6:14:35<7:03:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7239/15423 [6:14:35<7:03:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7240/15423 [6:14:40<7:03:28,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7240/15423 [6:14:40<7:03:28,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7241/15423 [6:14:44<7:03:26,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7241/15423 [6:14:44<7:03:26,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7242/15423 [6:14:49<7:03:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7242/15423 [6:14:49<7:03:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7243/15423 [6:14:51<7:03:20,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7243/15423 [6:14:51<7:03:20,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7244/15423 [6:14:55<7:03:19,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7244/15423 [6:14:55<7:03:19,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7245/15423 [6:14:59<7:03:16,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7245/15423 [6:14:59<7:03:16,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7246/15423 [6:15:03<7:03:15,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7246/15423 [6:15:03<7:03:15,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7247/15423 [6:15:05<7:03:10,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7247/15423 [6:15:05<7:03:10,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7248/15423 [6:15:08<7:03:07,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7248/15423 [6:15:08<7:03:07,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7249/15423 [6:15:10<7:03:03,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7249/15423 [6:15:10<7:03:03,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7250/15423 [6:15:13<7:02:59,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7250/15423 [6:15:13<7:02:59,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7251/15423 [6:15:17<7:02:57,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7251/15423 [6:15:17<7:02:57,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7252/15423 [6:15:20<7:02:54,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7252/15423 [6:15:20<7:02:54,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7253/15423 [6:15:22<7:02:50,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7253/15423 [6:15:22<7:02:50,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7254/15423 [6:15:25<7:02:46,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7254/15423 [6:15:25<7:02:46,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7255/15423 [6:15:26<7:02:41,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7255/15423 [6:15:26<7:02:41,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7256/15423 [6:15:29<7:02:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7256/15423 [6:15:29<7:02:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7257/15423 [6:15:30<7:02:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7257/15423 [6:15:30<7:02:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7258/15423 [6:15:33<7:02:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7258/15423 [6:15:33<7:02:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7259/15423 [6:15:37<7:02:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7259/15423 [6:15:37<7:02:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7260/15423 [6:15:39<7:02:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7260/15423 [6:15:39<7:02:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7261/15423 [6:15:41<7:02:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7261/15423 [6:15:41<7:02:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7262/15423 [6:15:43<7:02:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7262/15423 [6:15:43<7:02:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7263/15423 [6:15:48<7:02:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7263/15423 [6:15:48<7:02:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7264/15423 [6:15:55<7:02:14,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7264/15423 [6:15:55<7:02:14,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7265/15423 [6:15:57<7:02:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7265/15423 [6:15:57<7:02:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7266/15423 [6:16:02<7:02:08,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7266/15423 [6:16:02<7:02:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7267/15423 [6:16:05<7:02:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7267/15423 [6:16:05<7:02:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7268/15423 [6:16:07<7:02:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7268/15423 [6:16:07<7:02:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7269/15423 [6:16:10<7:01:58,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7269/15423 [6:16:10<7:01:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7270/15423 [6:16:13<7:01:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7270/15423 [6:16:13<7:01:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7271/15423 [6:16:17<7:01:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7271/15423 [6:16:17<7:01:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7272/15423 [6:16:18<7:01:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7272/15423 [6:16:18<7:01:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7273/15423 [6:16:18<7:01:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7273/15423 [6:16:18<7:01:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7274/15423 [6:16:21<7:01:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7274/15423 [6:16:21<7:01:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7275/15423 [6:16:22<7:01:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7275/15423 [6:16:22<7:01:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7276/15423 [6:16:27<7:01:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7276/15423 [6:16:27<7:01:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7277/15423 [6:16:28<7:01:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7277/15423 [6:16:28<7:01:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7278/15423 [6:16:30<7:01:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7278/15423 [6:16:30<7:01:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7279/15423 [6:16:32<7:01:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7279/15423 [6:16:32<7:01:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7280/15423 [6:16:34<7:01:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7280/15423 [6:16:34<7:01:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7281/15423 [6:16:36<7:01:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7281/15423 [6:16:36<7:01:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7282/15423 [6:16:38<7:01:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7282/15423 [6:16:38<7:01:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7283/15423 [6:16:42<7:01:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7283/15423 [6:16:42<7:01:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7284/15423 [6:16:45<7:00:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7284/15423 [6:16:45<7:00:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7285/15423 [6:16:47<7:00:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7285/15423 [6:16:47<7:00:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7286/15423 [6:16:49<7:00:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7286/15423 [6:16:49<7:00:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7287/15423 [6:16:51<7:00:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7287/15423 [6:16:51<7:00:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7288/15423 [6:16:53<7:00:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7288/15423 [6:16:53<7:00:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7289/15423 [6:16:54<7:00:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7289/15423 [6:16:54<7:00:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7290/15423 [6:16:57<7:00:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7290/15423 [6:16:57<7:00:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7291/15423 [6:16:58<7:00:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7291/15423 [6:16:58<7:00:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7292/15423 [6:17:03<7:00:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7292/15423 [6:17:03<7:00:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7293/15423 [6:17:06<7:00:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7293/15423 [6:17:06<7:00:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7294/15423 [6:17:09<7:00:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7294/15423 [6:17:09<7:00:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7295/15423 [6:17:11<7:00:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7295/15423 [6:17:11<7:00:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7296/15423 [6:17:27<7:00:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7296/15423 [6:17:27<7:00:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7297/15423 [6:17:29<7:00:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7297/15423 [6:17:29<7:00:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7298/15423 [6:17:31<7:00:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7298/15423 [6:17:31<7:00:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7299/15423 [6:17:31<7:00:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7299/15423 [6:17:31<7:00:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7300/15423 [6:17:32<7:00:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7300/15423 [6:17:32<7:00:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7301/15423 [6:17:36<7:00:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7301/15423 [6:17:36<7:00:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7302/15423 [6:17:40<7:00:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7302/15423 [6:17:40<7:00:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7303/15423 [6:17:41<6:59:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7303/15423 [6:17:41<6:59:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7304/15423 [6:17:45<6:59:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7304/15423 [6:17:45<6:59:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7305/15423 [6:17:49<6:59:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7305/15423 [6:17:49<6:59:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7306/15423 [6:17:53<6:59:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7306/15423 [6:17:53<6:59:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7307/15423 [6:17:55<6:59:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7307/15423 [6:17:55<6:59:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7308/15423 [6:17:57<6:59:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7308/15423 [6:17:57<6:59:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7309/15423 [6:17:59<6:59:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7309/15423 [6:17:59<6:59:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7310/15423 [6:17:59<6:59:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7310/15423 [6:17:59<6:59:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7311/15423 [6:18:03<6:59:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7311/15423 [6:18:03<6:59:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7312/15423 [6:18:05<6:59:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7312/15423 [6:18:05<6:59:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7313/15423 [6:18:09<6:59:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7313/15423 [6:18:09<6:59:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7314/15423 [6:18:11<6:59:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7314/15423 [6:18:11<6:59:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7315/15423 [6:18:13<6:59:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7315/15423 [6:18:13<6:59:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7316/15423 [6:18:16<6:59:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7316/15423 [6:18:16<6:59:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7317/15423 [6:18:20<6:59:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7317/15423 [6:18:20<6:59:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7318/15423 [6:18:23<6:59:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7318/15423 [6:18:23<6:59:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7319/15423 [6:18:25<6:59:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7319/15423 [6:18:25<6:59:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7320/15423 [6:18:26<6:58:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7320/15423 [6:18:26<6:58:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7321/15423 [6:18:28<6:58:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7321/15423 [6:18:28<6:58:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7322/15423 [6:18:30<6:58:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7322/15423 [6:18:30<6:58:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7323/15423 [6:18:33<6:58:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7323/15423 [6:18:33<6:58:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7324/15423 [6:18:37<6:58:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7324/15423 [6:18:37<6:58:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  47%|▍| 7325/15423 [6:18:39<6:58:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  47%|▍| 7325/15423 [6:18:39<6:58:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7326/15423 [6:18:40<6:58:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7326/15423 [6:18:40<6:58:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7327/15423 [6:18:42<6:58:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7327/15423 [6:18:42<6:58:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7328/15423 [6:19:05<6:58:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7328/15423 [6:19:05<6:58:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7329/15423 [6:19:08<6:58:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7329/15423 [6:19:08<6:58:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7330/15423 [6:19:12<6:58:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7330/15423 [6:19:12<6:58:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7331/15423 [6:19:16<6:58:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7331/15423 [6:19:16<6:58:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7332/15423 [6:19:18<6:58:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7332/15423 [6:19:18<6:58:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7333/15423 [6:19:21<6:58:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7333/15423 [6:19:21<6:58:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7334/15423 [6:19:25<6:58:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7334/15423 [6:19:25<6:58:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7335/15423 [6:19:27<6:58:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7335/15423 [6:19:27<6:58:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7336/15423 [6:19:31<6:58:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7336/15423 [6:19:31<6:58:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7337/15423 [6:19:31<6:58:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7337/15423 [6:19:31<6:58:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7338/15423 [6:19:33<6:58:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7338/15423 [6:19:33<6:58:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7339/15423 [6:19:34<6:58:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7339/15423 [6:19:34<6:58:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7340/15423 [6:19:34<6:58:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7340/15423 [6:19:34<6:58:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7341/15423 [6:19:37<6:57:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7341/15423 [6:19:37<6:57:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7342/15423 [6:19:39<6:57:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7342/15423 [6:19:39<6:57:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7343/15423 [6:19:42<6:57:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7343/15423 [6:19:42<6:57:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7344/15423 [6:19:46<6:57:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7344/15423 [6:19:46<6:57:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7345/15423 [6:19:48<6:57:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7345/15423 [6:19:48<6:57:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7346/15423 [6:19:49<6:57:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7346/15423 [6:19:49<6:57:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7347/15423 [6:19:52<6:57:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7347/15423 [6:19:52<6:57:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7348/15423 [6:19:57<6:57:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7348/15423 [6:19:57<6:57:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7349/15423 [6:19:59<6:57:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7349/15423 [6:19:59<6:57:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7350/15423 [6:20:02<6:57:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7350/15423 [6:20:02<6:57:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7351/15423 [6:20:04<6:57:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7351/15423 [6:20:04<6:57:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7352/15423 [6:20:07<6:57:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7352/15423 [6:20:07<6:57:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7353/15423 [6:20:10<6:57:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7353/15423 [6:20:10<6:57:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7354/15423 [6:20:13<6:57:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7354/15423 [6:20:13<6:57:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7355/15423 [6:20:15<6:57:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7355/15423 [6:20:15<6:57:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7356/15423 [6:20:20<6:57:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7356/15423 [6:20:20<6:57:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7357/15423 [6:20:21<6:57:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7357/15423 [6:20:21<6:57:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7358/15423 [6:20:22<6:56:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7358/15423 [6:20:22<6:56:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7359/15423 [6:20:26<6:56:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7359/15423 [6:20:26<6:56:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7360/15423 [6:20:44<6:57:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7360/15423 [6:20:44<6:57:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7361/15423 [6:20:45<6:57:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7361/15423 [6:20:45<6:57:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7362/15423 [6:20:48<6:56:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7362/15423 [6:20:48<6:56:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7363/15423 [6:20:50<6:56:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7363/15423 [6:20:50<6:56:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7364/15423 [6:20:54<6:56:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7364/15423 [6:20:54<6:56:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7365/15423 [6:20:58<6:56:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7365/15423 [6:20:58<6:56:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7366/15423 [6:21:00<6:56:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7366/15423 [6:21:00<6:56:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7367/15423 [6:21:03<6:56:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7367/15423 [6:21:03<6:56:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7368/15423 [6:21:07<6:56:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7368/15423 [6:21:07<6:56:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7369/15423 [6:21:10<6:56:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7369/15423 [6:21:10<6:56:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7370/15423 [6:21:12<6:56:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7370/15423 [6:21:12<6:56:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7371/15423 [6:21:16<6:56:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7371/15423 [6:21:16<6:56:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7372/15423 [6:21:18<6:56:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7372/15423 [6:21:18<6:56:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7373/15423 [6:21:19<6:56:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7373/15423 [6:21:19<6:56:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7374/15423 [6:21:22<6:56:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7374/15423 [6:21:22<6:56:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7375/15423 [6:21:24<6:56:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7375/15423 [6:21:24<6:56:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7376/15423 [6:21:25<6:56:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7376/15423 [6:21:25<6:56:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7377/15423 [6:21:28<6:56:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7377/15423 [6:21:28<6:56:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7378/15423 [6:21:31<6:56:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7378/15423 [6:21:31<6:56:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7379/15423 [6:21:35<6:55:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7379/15423 [6:21:35<6:55:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7380/15423 [6:21:39<6:55:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7380/15423 [6:21:39<6:55:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7381/15423 [6:21:39<6:55:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7381/15423 [6:21:39<6:55:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7382/15423 [6:21:42<6:55:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7382/15423 [6:21:42<6:55:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7383/15423 [6:21:44<6:55:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7383/15423 [6:21:44<6:55:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7384/15423 [6:21:49<6:55:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7384/15423 [6:21:49<6:55:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7385/15423 [6:21:50<6:55:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7385/15423 [6:21:50<6:55:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7386/15423 [6:21:55<6:55:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7386/15423 [6:21:55<6:55:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7387/15423 [6:21:59<6:55:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7387/15423 [6:21:59<6:55:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7388/15423 [6:22:01<6:55:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7388/15423 [6:22:01<6:55:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7389/15423 [6:22:03<6:55:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7389/15423 [6:22:03<6:55:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7390/15423 [6:22:04<6:55:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7390/15423 [6:22:04<6:55:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7391/15423 [6:22:06<6:55:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7391/15423 [6:22:06<6:55:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7392/15423 [6:22:20<6:55:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7392/15423 [6:22:20<6:55:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7393/15423 [6:22:22<6:55:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7393/15423 [6:22:22<6:55:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7394/15423 [6:22:25<6:55:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7394/15423 [6:22:25<6:55:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7395/15423 [6:22:26<6:55:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7395/15423 [6:22:26<6:55:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7396/15423 [6:22:28<6:55:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7396/15423 [6:22:28<6:55:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7397/15423 [6:22:28<6:55:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7397/15423 [6:22:28<6:55:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7398/15423 [6:22:32<6:54:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7398/15423 [6:22:32<6:54:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7399/15423 [6:22:33<6:54:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7399/15423 [6:22:33<6:54:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7400/15423 [6:22:37<6:54:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7400/15423 [6:22:37<6:54:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7401/15423 [6:22:38<6:54:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7401/15423 [6:22:38<6:54:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7402/15423 [6:22:39<6:54:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7402/15423 [6:22:39<6:54:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7403/15423 [6:22:42<6:54:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7403/15423 [6:22:42<6:54:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7404/15423 [6:22:46<6:54:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7404/15423 [6:22:46<6:54:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7405/15423 [6:22:46<6:54:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7405/15423 [6:22:46<6:54:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7406/15423 [6:22:48<6:54:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7406/15423 [6:22:48<6:54:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7407/15423 [6:22:50<6:54:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7407/15423 [6:22:50<6:54:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7408/15423 [6:22:55<6:54:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7408/15423 [6:22:55<6:54:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7409/15423 [6:22:59<6:54:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7409/15423 [6:22:59<6:54:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7410/15423 [6:23:00<6:54:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7410/15423 [6:23:00<6:54:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7411/15423 [6:23:01<6:54:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7411/15423 [6:23:01<6:54:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7412/15423 [6:23:04<6:54:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7412/15423 [6:23:04<6:54:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7413/15423 [6:23:06<6:53:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7413/15423 [6:23:06<6:53:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7414/15423 [6:23:09<6:53:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7414/15423 [6:23:09<6:53:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7415/15423 [6:23:12<6:53:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7415/15423 [6:23:12<6:53:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7416/15423 [6:23:16<6:53:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7416/15423 [6:23:16<6:53:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7417/15423 [6:23:19<6:53:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7417/15423 [6:23:19<6:53:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7418/15423 [6:23:23<6:53:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7418/15423 [6:23:23<6:53:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7419/15423 [6:23:26<6:53:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7419/15423 [6:23:26<6:53:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7420/15423 [6:23:29<6:53:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7420/15423 [6:23:29<6:53:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7421/15423 [6:23:32<6:53:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7421/15423 [6:23:32<6:53:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7422/15423 [6:23:35<6:53:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7422/15423 [6:23:35<6:53:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7423/15423 [6:23:38<6:53:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7423/15423 [6:23:38<6:53:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7424/15423 [6:23:53<6:53:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7424/15423 [6:23:53<6:53:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7425/15423 [6:23:55<6:53:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7425/15423 [6:23:55<6:53:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7426/15423 [6:23:57<6:53:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7426/15423 [6:23:57<6:53:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7427/15423 [6:24:01<6:53:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7427/15423 [6:24:01<6:53:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7428/15423 [6:24:03<6:53:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7428/15423 [6:24:03<6:53:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7429/15423 [6:24:06<6:53:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7429/15423 [6:24:06<6:53:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7430/15423 [6:24:09<6:53:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7430/15423 [6:24:09<6:53:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7431/15423 [6:24:12<6:53:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7431/15423 [6:24:12<6:53:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7432/15423 [6:24:13<6:53:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7432/15423 [6:24:13<6:53:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7433/15423 [6:24:14<6:53:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7433/15423 [6:24:14<6:53:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7434/15423 [6:24:15<6:52:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7434/15423 [6:24:15<6:52:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7435/15423 [6:24:19<6:52:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7435/15423 [6:24:19<6:52:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7436/15423 [6:24:23<6:52:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7436/15423 [6:24:23<6:52:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7437/15423 [6:24:25<6:52:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7437/15423 [6:24:25<6:52:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7438/15423 [6:24:26<6:52:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7438/15423 [6:24:26<6:52:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7439/15423 [6:24:30<6:52:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7439/15423 [6:24:30<6:52:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7440/15423 [6:24:31<6:52:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7440/15423 [6:24:31<6:52:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7441/15423 [6:24:33<6:52:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7441/15423 [6:24:33<6:52:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7442/15423 [6:24:36<6:52:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7442/15423 [6:24:36<6:52:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7443/15423 [6:24:38<6:52:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7443/15423 [6:24:38<6:52:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7444/15423 [6:24:42<6:52:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7444/15423 [6:24:42<6:52:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7445/15423 [6:24:45<6:52:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7445/15423 [6:24:45<6:52:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7446/15423 [6:24:47<6:52:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7446/15423 [6:24:47<6:52:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7447/15423 [6:24:50<6:52:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7447/15423 [6:24:50<6:52:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7448/15423 [6:24:53<6:52:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7448/15423 [6:24:53<6:52:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7449/15423 [6:24:54<6:52:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7449/15423 [6:24:54<6:52:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7450/15423 [6:24:56<6:51:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7450/15423 [6:24:56<6:51:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7451/15423 [6:24:57<6:51:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7451/15423 [6:24:57<6:51:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7452/15423 [6:25:01<6:51:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7452/15423 [6:25:01<6:51:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7453/15423 [6:25:03<6:51:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7453/15423 [6:25:03<6:51:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7454/15423 [6:25:04<6:51:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7454/15423 [6:25:04<6:51:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7455/15423 [6:25:07<6:51:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7455/15423 [6:25:07<6:51:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7456/15423 [6:25:27<6:51:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7456/15423 [6:25:27<6:51:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7457/15423 [6:25:27<6:51:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7457/15423 [6:25:27<6:51:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7458/15423 [6:25:28<6:51:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7458/15423 [6:25:28<6:51:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7459/15423 [6:25:33<6:51:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7459/15423 [6:25:33<6:51:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7460/15423 [6:25:36<6:51:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7460/15423 [6:25:36<6:51:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7461/15423 [6:25:37<6:51:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7461/15423 [6:25:37<6:51:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7462/15423 [6:25:40<6:51:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7462/15423 [6:25:40<6:51:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7463/15423 [6:25:42<6:51:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7463/15423 [6:25:42<6:51:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7464/15423 [6:25:46<6:51:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7464/15423 [6:25:46<6:51:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7465/15423 [6:25:51<6:51:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7465/15423 [6:25:51<6:51:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7466/15423 [6:25:51<6:51:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7466/15423 [6:25:51<6:51:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7467/15423 [6:25:55<6:51:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7467/15423 [6:25:55<6:51:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7468/15423 [6:25:58<6:51:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7468/15423 [6:25:58<6:51:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7469/15423 [6:26:01<6:51:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7469/15423 [6:26:01<6:51:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7470/15423 [6:26:06<6:51:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7470/15423 [6:26:06<6:51:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7471/15423 [6:26:06<6:50:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7471/15423 [6:26:06<6:50:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7472/15423 [6:26:09<6:50:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7472/15423 [6:26:09<6:50:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7473/15423 [6:26:12<6:50:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7473/15423 [6:26:12<6:50:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7474/15423 [6:26:13<6:50:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7474/15423 [6:26:13<6:50:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7475/15423 [6:26:15<6:50:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7475/15423 [6:26:15<6:50:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7476/15423 [6:26:18<6:50:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7476/15423 [6:26:18<6:50:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7477/15423 [6:26:21<6:50:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7477/15423 [6:26:21<6:50:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7478/15423 [6:26:24<6:50:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7478/15423 [6:26:24<6:50:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7479/15423 [6:26:27<6:50:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7479/15423 [6:26:27<6:50:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  48%|▍| 7480/15423 [6:26:28<6:50:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  48%|▍| 7480/15423 [6:26:28<6:50:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7481/15423 [6:26:29<6:50:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7481/15423 [6:26:29<6:50:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7482/15423 [6:26:31<6:50:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7482/15423 [6:26:31<6:50:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7483/15423 [6:26:35<6:50:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7483/15423 [6:26:35<6:50:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7484/15423 [6:26:37<6:50:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7484/15423 [6:26:37<6:50:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7485/15423 [6:26:39<6:50:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7485/15423 [6:26:39<6:50:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7486/15423 [6:26:43<6:50:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7486/15423 [6:26:43<6:50:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7487/15423 [6:26:46<6:49:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7487/15423 [6:26:46<6:49:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7488/15423 [6:27:03<6:50:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7488/15423 [6:27:03<6:50:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7489/15423 [6:27:05<6:50:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7489/15423 [6:27:05<6:50:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7490/15423 [6:27:10<6:50:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7490/15423 [6:27:10<6:50:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7491/15423 [6:27:13<6:50:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7491/15423 [6:27:13<6:50:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7492/15423 [6:27:14<6:49:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7492/15423 [6:27:14<6:49:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7493/15423 [6:27:17<6:49:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7493/15423 [6:27:17<6:49:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7494/15423 [6:27:21<6:49:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7494/15423 [6:27:21<6:49:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7495/15423 [6:27:22<6:49:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7495/15423 [6:27:22<6:49:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7496/15423 [6:27:26<6:49:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7496/15423 [6:27:26<6:49:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7497/15423 [6:27:30<6:49:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7497/15423 [6:27:30<6:49:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7498/15423 [6:27:34<6:49:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7498/15423 [6:27:34<6:49:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7499/15423 [6:27:37<6:49:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7499/15423 [6:27:37<6:49:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7500/15423 [6:27:41<6:49:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7500/15423 [6:27:41<6:49:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7501/15423 [6:27:42<6:49:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7501/15423 [6:27:42<6:49:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7502/15423 [6:27:44<6:49:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7502/15423 [6:27:44<6:49:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7503/15423 [6:27:45<6:49:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7503/15423 [6:27:45<6:49:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7504/15423 [6:27:47<6:49:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7504/15423 [6:27:47<6:49:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7505/15423 [6:27:49<6:49:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7505/15423 [6:27:49<6:49:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7506/15423 [6:27:51<6:49:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7506/15423 [6:27:51<6:49:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7507/15423 [6:27:55<6:49:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7507/15423 [6:27:55<6:49:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7508/15423 [6:27:57<6:48:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7508/15423 [6:27:57<6:48:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7509/15423 [6:27:57<6:48:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7509/15423 [6:27:57<6:48:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7510/15423 [6:28:01<6:48:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7510/15423 [6:28:01<6:48:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7511/15423 [6:28:05<6:48:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7511/15423 [6:28:05<6:48:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7512/15423 [6:28:08<6:48:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7512/15423 [6:28:08<6:48:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7513/15423 [6:28:09<6:48:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7513/15423 [6:28:09<6:48:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7514/15423 [6:28:13<6:48:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7514/15423 [6:28:13<6:48:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7515/15423 [6:28:17<6:48:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7515/15423 [6:28:17<6:48:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7516/15423 [6:28:18<6:48:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7516/15423 [6:28:18<6:48:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7517/15423 [6:28:19<6:48:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7517/15423 [6:28:19<6:48:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7518/15423 [6:28:21<6:48:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7518/15423 [6:28:21<6:48:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7519/15423 [6:28:23<6:48:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7519/15423 [6:28:23<6:48:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7520/15423 [6:28:33<6:48:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7520/15423 [6:28:33<6:48:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7521/15423 [6:28:34<6:48:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7521/15423 [6:28:34<6:48:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7522/15423 [6:28:37<6:48:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7522/15423 [6:28:37<6:48:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7523/15423 [6:28:38<6:48:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7523/15423 [6:28:38<6:48:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7524/15423 [6:28:42<6:48:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7524/15423 [6:28:42<6:48:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7525/15423 [6:28:44<6:48:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7525/15423 [6:28:44<6:48:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7526/15423 [6:28:46<6:47:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7526/15423 [6:28:46<6:47:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7527/15423 [6:28:48<6:47:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7527/15423 [6:28:48<6:47:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7528/15423 [6:28:52<6:47:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7528/15423 [6:28:52<6:47:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7529/15423 [6:28:56<6:47:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7529/15423 [6:28:56<6:47:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7530/15423 [6:28:57<6:47:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7530/15423 [6:28:57<6:47:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7531/15423 [6:29:01<6:47:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7531/15423 [6:29:01<6:47:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7532/15423 [6:29:03<6:47:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7532/15423 [6:29:03<6:47:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7533/15423 [6:29:06<6:47:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7533/15423 [6:29:06<6:47:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7534/15423 [6:29:09<6:47:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7534/15423 [6:29:09<6:47:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7535/15423 [6:29:10<6:47:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7535/15423 [6:29:10<6:47:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7536/15423 [6:29:10<6:47:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7536/15423 [6:29:10<6:47:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7537/15423 [6:29:12<6:47:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7537/15423 [6:29:12<6:47:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7538/15423 [6:29:16<6:47:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7538/15423 [6:29:16<6:47:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7539/15423 [6:29:20<6:47:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7539/15423 [6:29:20<6:47:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7540/15423 [6:29:23<6:47:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7540/15423 [6:29:23<6:47:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7541/15423 [6:29:26<6:47:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7541/15423 [6:29:26<6:47:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7542/15423 [6:29:30<6:47:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7542/15423 [6:29:30<6:47:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7543/15423 [6:29:34<6:46:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7543/15423 [6:29:34<6:46:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7544/15423 [6:29:37<6:46:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7544/15423 [6:29:37<6:46:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7545/15423 [6:29:41<6:46:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7545/15423 [6:29:41<6:46:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7546/15423 [6:29:45<6:46:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7546/15423 [6:29:45<6:46:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7547/15423 [6:29:49<6:46:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7547/15423 [6:29:49<6:46:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7548/15423 [6:29:53<6:46:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7548/15423 [6:29:53<6:46:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7549/15423 [6:29:57<6:46:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7549/15423 [6:29:57<6:46:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7550/15423 [6:29:58<6:46:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7550/15423 [6:29:58<6:46:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7551/15423 [6:30:00<6:46:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7551/15423 [6:30:00<6:46:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7552/15423 [6:30:10<6:46:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7552/15423 [6:30:10<6:46:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7553/15423 [6:30:13<6:46:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7553/15423 [6:30:13<6:46:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7554/15423 [6:30:16<6:46:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7554/15423 [6:30:16<6:46:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7555/15423 [6:30:19<6:46:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7555/15423 [6:30:19<6:46:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7556/15423 [6:30:20<6:46:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7556/15423 [6:30:20<6:46:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7557/15423 [6:30:21<6:46:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7557/15423 [6:30:21<6:46:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7558/15423 [6:30:23<6:46:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7558/15423 [6:30:23<6:46:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7559/15423 [6:30:25<6:46:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7559/15423 [6:30:25<6:46:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7560/15423 [6:30:29<6:46:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7560/15423 [6:30:29<6:46:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7561/15423 [6:30:33<6:46:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7561/15423 [6:30:33<6:46:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7562/15423 [6:30:36<6:46:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7562/15423 [6:30:36<6:46:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7563/15423 [6:30:40<6:46:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7563/15423 [6:30:40<6:46:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7564/15423 [6:30:44<6:45:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7564/15423 [6:30:44<6:45:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|���| 7565/15423 [6:30:45<6:45:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7565/15423 [6:30:45<6:45:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7566/15423 [6:30:46<6:45:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7566/15423 [6:30:46<6:45:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7567/15423 [6:30:47<6:45:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7567/15423 [6:30:47<6:45:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7568/15423 [6:30:48<6:45:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7568/15423 [6:30:48<6:45:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7569/15423 [6:30:50<6:45:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7569/15423 [6:30:50<6:45:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7570/15423 [6:30:53<6:45:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7570/15423 [6:30:53<6:45:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7571/15423 [6:30:54<6:45:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7571/15423 [6:30:54<6:45:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7572/15423 [6:30:54<6:45:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7572/15423 [6:30:54<6:45:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7573/15423 [6:30:57<6:45:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7573/15423 [6:30:57<6:45:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7574/15423 [6:30:58<6:45:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7574/15423 [6:30:58<6:45:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7575/15423 [6:31:00<6:45:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7575/15423 [6:31:00<6:45:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7576/15423 [6:31:01<6:45:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7576/15423 [6:31:01<6:45:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7577/15423 [6:31:04<6:44:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7577/15423 [6:31:04<6:44:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7578/15423 [6:31:08<6:44:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7578/15423 [6:31:08<6:44:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7579/15423 [6:31:13<6:44:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7579/15423 [6:31:13<6:44:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7580/15423 [6:31:16<6:44:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7580/15423 [6:31:16<6:44:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7581/15423 [6:31:20<6:44:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7581/15423 [6:31:20<6:44:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7582/15423 [6:31:22<6:44:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7582/15423 [6:31:22<6:44:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7583/15423 [6:31:25<6:44:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7583/15423 [6:31:25<6:44:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7584/15423 [6:31:50<6:45:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7584/15423 [6:31:50<6:45:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7585/15423 [6:31:53<6:44:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7585/15423 [6:31:53<6:44:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7586/15423 [6:31:57<6:44:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7586/15423 [6:31:57<6:44:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7587/15423 [6:31:58<6:44:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7587/15423 [6:31:58<6:44:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7588/15423 [6:31:59<6:44:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7588/15423 [6:31:59<6:44:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7589/15423 [6:32:02<6:44:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7589/15423 [6:32:02<6:44:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7590/15423 [6:32:04<6:44:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7590/15423 [6:32:04<6:44:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7591/15423 [6:32:07<6:44:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7591/15423 [6:32:07<6:44:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7592/15423 [6:32:08<6:44:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7592/15423 [6:32:08<6:44:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7593/15423 [6:32:13<6:44:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7593/15423 [6:32:13<6:44:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7594/15423 [6:32:13<6:44:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7594/15423 [6:32:13<6:44:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7595/15423 [6:32:15<6:44:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7595/15423 [6:32:15<6:44:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7596/15423 [6:32:19<6:44:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7596/15423 [6:32:19<6:44:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7597/15423 [6:32:21<6:44:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7597/15423 [6:32:21<6:44:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7598/15423 [6:32:25<6:44:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7598/15423 [6:32:25<6:44:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7599/15423 [6:32:30<6:44:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7599/15423 [6:32:30<6:44:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7600/15423 [6:32:31<6:44:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7600/15423 [6:32:31<6:44:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7601/15423 [6:32:32<6:43:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7601/15423 [6:32:32<6:43:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7602/15423 [6:32:34<6:43:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7602/15423 [6:32:34<6:43:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7603/15423 [6:32:39<6:43:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7603/15423 [6:32:39<6:43:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7604/15423 [6:32:41<6:43:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7604/15423 [6:32:41<6:43:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7605/15423 [6:32:45<6:43:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7605/15423 [6:32:45<6:43:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7606/15423 [6:32:47<6:43:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7606/15423 [6:32:47<6:43:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7607/15423 [6:32:50<6:43:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7607/15423 [6:32:50<6:43:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7608/15423 [6:32:54<6:43:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7608/15423 [6:32:54<6:43:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7609/15423 [6:32:58<6:43:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7609/15423 [6:32:58<6:43:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7610/15423 [6:32:59<6:43:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7610/15423 [6:32:59<6:43:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7611/15423 [6:33:01<6:43:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7611/15423 [6:33:01<6:43:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7612/15423 [6:33:04<6:43:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7612/15423 [6:33:04<6:43:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7613/15423 [6:33:07<6:43:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7613/15423 [6:33:07<6:43:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7614/15423 [6:33:10<6:43:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7614/15423 [6:33:10<6:43:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7615/15423 [6:33:12<6:43:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7615/15423 [6:33:12<6:43:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7616/15423 [6:33:34<6:43:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7616/15423 [6:33:34<6:43:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7617/15423 [6:33:37<6:43:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7617/15423 [6:33:37<6:43:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7618/15423 [6:33:39<6:43:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7618/15423 [6:33:39<6:43:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7619/15423 [6:33:41<6:43:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7619/15423 [6:33:41<6:43:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7620/15423 [6:33:46<6:43:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7620/15423 [6:33:46<6:43:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7621/15423 [6:33:48<6:43:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7621/15423 [6:33:48<6:43:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7622/15423 [6:33:53<6:43:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7622/15423 [6:33:53<6:43:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7623/15423 [6:33:54<6:43:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7623/15423 [6:33:54<6:43:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7624/15423 [6:33:56<6:42:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7624/15423 [6:33:56<6:42:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7625/15423 [6:33:58<6:42:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7625/15423 [6:33:58<6:42:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7626/15423 [6:34:03<6:42:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7626/15423 [6:34:03<6:42:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7627/15423 [6:34:05<6:42:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7627/15423 [6:34:05<6:42:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7628/15423 [6:34:07<6:42:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7628/15423 [6:34:07<6:42:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7629/15423 [6:34:07<6:42:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7629/15423 [6:34:07<6:42:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7630/15423 [6:34:12<6:42:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7630/15423 [6:34:12<6:42:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7631/15423 [6:34:16<6:42:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7631/15423 [6:34:16<6:42:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7632/15423 [6:34:19<6:42:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7632/15423 [6:34:19<6:42:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7633/15423 [6:34:20<6:42:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7633/15423 [6:34:20<6:42:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  49%|▍| 7634/15423 [6:34:23<6:42:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  49%|▍| 7634/15423 [6:34:23<6:42:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7635/15423 [6:34:26<6:42:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7635/15423 [6:34:26<6:42:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7636/15423 [6:34:28<6:42:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7636/15423 [6:34:28<6:42:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7637/15423 [6:34:30<6:42:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7637/15423 [6:34:30<6:42:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7638/15423 [6:34:32<6:42:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7638/15423 [6:34:32<6:42:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7639/15423 [6:34:34<6:42:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7639/15423 [6:34:34<6:42:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7640/15423 [6:34:36<6:41:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7640/15423 [6:34:36<6:41:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7641/15423 [6:34:38<6:41:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7641/15423 [6:34:38<6:41:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7642/15423 [6:34:40<6:41:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7642/15423 [6:34:40<6:41:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7643/15423 [6:34:42<6:41:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7643/15423 [6:34:42<6:41:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7644/15423 [6:34:44<6:41:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7644/15423 [6:34:44<6:41:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7645/15423 [6:34:47<6:41:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7645/15423 [6:34:47<6:41:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7646/15423 [6:34:50<6:41:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7646/15423 [6:34:50<6:41:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7647/15423 [6:34:54<6:41:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7647/15423 [6:34:54<6:41:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7648/15423 [6:35:14<6:41:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7648/15423 [6:35:14<6:41:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7649/15423 [6:35:17<6:41:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7649/15423 [6:35:17<6:41:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7650/15423 [6:35:17<6:41:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7650/15423 [6:35:17<6:41:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7651/15423 [6:35:19<6:41:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7651/15423 [6:35:19<6:41:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7652/15423 [6:35:22<6:41:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7652/15423 [6:35:22<6:41:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7653/15423 [6:35:24<6:41:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7653/15423 [6:35:24<6:41:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7654/15423 [6:35:26<6:41:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7654/15423 [6:35:26<6:41:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7655/15423 [6:35:30<6:41:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7655/15423 [6:35:30<6:41:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7656/15423 [6:35:33<6:41:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7656/15423 [6:35:33<6:41:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7657/15423 [6:35:35<6:41:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7657/15423 [6:35:35<6:41:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7658/15423 [6:35:37<6:41:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7658/15423 [6:35:37<6:41:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7659/15423 [6:35:41<6:41:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7659/15423 [6:35:41<6:41:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7660/15423 [6:35:43<6:41:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7660/15423 [6:35:43<6:41:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7661/15423 [6:35:45<6:40:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7661/15423 [6:35:45<6:40:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7662/15423 [6:35:46<6:40:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7662/15423 [6:35:46<6:40:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7663/15423 [6:35:47<6:40:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7663/15423 [6:35:47<6:40:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7664/15423 [6:35:49<6:40:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7664/15423 [6:35:49<6:40:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7665/15423 [6:35:52<6:40:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7665/15423 [6:35:52<6:40:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7666/15423 [6:35:56<6:40:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7666/15423 [6:35:56<6:40:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7667/15423 [6:35:58<6:40:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7667/15423 [6:35:58<6:40:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7668/15423 [6:36:00<6:40:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7668/15423 [6:36:00<6:40:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7669/15423 [6:36:04<6:40:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7669/15423 [6:36:04<6:40:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7670/15423 [6:36:08<6:40:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7670/15423 [6:36:08<6:40:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7671/15423 [6:36:10<6:40:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7671/15423 [6:36:10<6:40:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7672/15423 [6:36:11<6:40:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7672/15423 [6:36:11<6:40:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7673/15423 [6:36:12<6:40:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7673/15423 [6:36:12<6:40:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7674/15423 [6:36:16<6:40:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7674/15423 [6:36:16<6:40:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7675/15423 [6:36:17<6:40:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7675/15423 [6:36:17<6:40:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7676/15423 [6:36:20<6:40:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7676/15423 [6:36:20<6:40:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7677/15423 [6:36:22<6:39:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7677/15423 [6:36:22<6:39:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7678/15423 [6:36:27<6:39:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7678/15423 [6:36:27<6:39:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7679/15423 [6:36:31<6:39:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7679/15423 [6:36:31<6:39:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7680/15423 [6:36:48<6:40:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7680/15423 [6:36:48<6:40:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7681/15423 [6:36:52<6:40:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7681/15423 [6:36:52<6:40:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7682/15423 [6:36:55<6:39:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7682/15423 [6:36:55<6:39:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7683/15423 [6:36:59<6:39:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7683/15423 [6:36:59<6:39:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7684/15423 [6:37:02<6:39:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7684/15423 [6:37:02<6:39:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7685/15423 [6:37:04<6:39:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7685/15423 [6:37:04<6:39:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7686/15423 [6:37:06<6:39:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7686/15423 [6:37:06<6:39:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7687/15423 [6:37:08<6:39:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7687/15423 [6:37:08<6:39:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7688/15423 [6:37:10<6:39:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7688/15423 [6:37:10<6:39:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7689/15423 [6:37:13<6:39:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7689/15423 [6:37:13<6:39:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7690/15423 [6:37:14<6:39:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7690/15423 [6:37:14<6:39:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7691/15423 [6:37:15<6:39:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7691/15423 [6:37:15<6:39:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7692/15423 [6:37:18<6:39:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7692/15423 [6:37:18<6:39:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7693/15423 [6:37:21<6:39:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7693/15423 [6:37:21<6:39:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7694/15423 [6:37:24<6:39:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7694/15423 [6:37:24<6:39:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7695/15423 [6:37:27<6:39:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7695/15423 [6:37:27<6:39:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7696/15423 [6:37:31<6:39:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7696/15423 [6:37:31<6:39:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7697/15423 [6:37:32<6:39:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7697/15423 [6:37:32<6:39:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7698/15423 [6:37:36<6:38:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7698/15423 [6:37:36<6:38:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7699/15423 [6:37:36<6:38:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7699/15423 [6:37:36<6:38:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7700/15423 [6:37:40<6:38:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7700/15423 [6:37:40<6:38:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7701/15423 [6:37:42<6:38:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7701/15423 [6:37:42<6:38:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7702/15423 [6:37:46<6:38:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7702/15423 [6:37:46<6:38:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7703/15423 [6:37:50<6:38:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7703/15423 [6:37:50<6:38:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7704/15423 [6:37:52<6:38:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7704/15423 [6:37:52<6:38:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7705/15423 [6:37:54<6:38:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7705/15423 [6:37:54<6:38:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7706/15423 [6:37:58<6:38:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7706/15423 [6:37:58<6:38:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7707/15423 [6:38:02<6:38:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7707/15423 [6:38:02<6:38:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7708/15423 [6:38:03<6:38:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7708/15423 [6:38:03<6:38:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7709/15423 [6:38:04<6:38:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7709/15423 [6:38:04<6:38:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7710/15423 [6:38:09<6:38:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7710/15423 [6:38:09<6:38:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▍| 7711/15423 [6:38:11<6:38:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▍| 7711/15423 [6:38:11<6:38:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7712/15423 [6:38:27<6:38:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7712/15423 [6:38:27<6:38:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7713/15423 [6:38:28<6:38:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7713/15423 [6:38:28<6:38:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7714/15423 [6:38:29<6:38:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7714/15423 [6:38:29<6:38:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7715/15423 [6:38:31<6:38:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7715/15423 [6:38:31<6:38:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7716/15423 [6:38:35<6:38:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7716/15423 [6:38:35<6:38:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7717/15423 [6:38:37<6:38:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7717/15423 [6:38:37<6:38:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7718/15423 [6:38:40<6:38:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7718/15423 [6:38:40<6:38:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7719/15423 [6:38:41<6:37:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7719/15423 [6:38:41<6:37:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7720/15423 [6:38:43<6:37:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7720/15423 [6:38:43<6:37:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7721/15423 [6:38:44<6:37:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7721/15423 [6:38:44<6:37:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7722/15423 [6:38:47<6:37:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7722/15423 [6:38:47<6:37:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7723/15423 [6:38:51<6:37:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7723/15423 [6:38:51<6:37:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7724/15423 [6:38:53<6:37:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7724/15423 [6:38:53<6:37:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7725/15423 [6:38:54<6:37:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7725/15423 [6:38:54<6:37:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7726/15423 [6:38:56<6:37:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7726/15423 [6:38:56<6:37:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7727/15423 [6:38:57<6:37:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7727/15423 [6:38:57<6:37:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7728/15423 [6:39:01<6:37:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7728/15423 [6:39:01<6:37:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7729/15423 [6:39:02<6:37:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7729/15423 [6:39:02<6:37:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7730/15423 [6:39:04<6:37:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7730/15423 [6:39:04<6:37:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7731/15423 [6:39:08<6:37:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7731/15423 [6:39:08<6:37:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7732/15423 [6:39:11<6:37:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7732/15423 [6:39:11<6:37:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7733/15423 [6:39:12<6:36:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7733/15423 [6:39:12<6:36:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7734/15423 [6:39:16<6:36:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7734/15423 [6:39:16<6:36:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7735/15423 [6:39:20<6:36:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7735/15423 [6:39:20<6:36:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7736/15423 [6:39:22<6:36:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7736/15423 [6:39:22<6:36:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7737/15423 [6:39:24<6:36:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7737/15423 [6:39:24<6:36:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7738/15423 [6:39:29<6:36:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7738/15423 [6:39:29<6:36:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7739/15423 [6:39:33<6:36:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7739/15423 [6:39:33<6:36:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7740/15423 [6:39:36<6:36:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7740/15423 [6:39:36<6:36:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7741/15423 [6:39:38<6:36:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7741/15423 [6:39:38<6:36:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7742/15423 [6:39:40<6:36:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7742/15423 [6:39:40<6:36:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7743/15423 [6:39:42<6:36:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7743/15423 [6:39:42<6:36:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7744/15423 [6:40:13<6:36:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7744/15423 [6:40:13<6:36:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7745/15423 [6:40:16<6:36:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7745/15423 [6:40:16<6:36:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7746/15423 [6:40:20<6:36:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7746/15423 [6:40:20<6:36:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7747/15423 [6:40:23<6:36:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7747/15423 [6:40:23<6:36:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7748/15423 [6:40:24<6:36:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7748/15423 [6:40:24<6:36:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7749/15423 [6:40:26<6:36:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7749/15423 [6:40:26<6:36:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7750/15423 [6:40:31<6:36:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7750/15423 [6:40:31<6:36:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7751/15423 [6:40:31<6:36:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7751/15423 [6:40:31<6:36:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7752/15423 [6:40:33<6:36:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7752/15423 [6:40:33<6:36:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7753/15423 [6:40:34<6:36:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7753/15423 [6:40:34<6:36:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7754/15423 [6:40:37<6:36:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7754/15423 [6:40:37<6:36:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7755/15423 [6:40:39<6:36:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7755/15423 [6:40:39<6:36:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7756/15423 [6:40:42<6:36:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7756/15423 [6:40:42<6:36:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7757/15423 [6:40:46<6:36:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7757/15423 [6:40:46<6:36:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7758/15423 [6:40:49<6:36:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7758/15423 [6:40:49<6:36:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7759/15423 [6:40:53<6:35:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7759/15423 [6:40:53<6:35:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7760/15423 [6:40:54<6:35:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7760/15423 [6:40:54<6:35:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7761/15423 [6:40:57<6:35:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7761/15423 [6:40:57<6:35:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7762/15423 [6:40:59<6:35:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7762/15423 [6:40:59<6:35:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7763/15423 [6:41:00<6:35:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7763/15423 [6:41:00<6:35:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7764/15423 [6:41:00<6:35:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7764/15423 [6:41:00<6:35:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7765/15423 [6:41:02<6:35:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7765/15423 [6:41:02<6:35:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7766/15423 [6:41:06<6:35:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7766/15423 [6:41:06<6:35:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7767/15423 [6:41:08<6:35:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7767/15423 [6:41:08<6:35:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7768/15423 [6:41:12<6:35:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7768/15423 [6:41:12<6:35:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7769/15423 [6:41:15<6:35:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7769/15423 [6:41:15<6:35:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7770/15423 [6:41:20<6:35:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7770/15423 [6:41:20<6:35:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7771/15423 [6:41:23<6:35:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7771/15423 [6:41:23<6:35:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7772/15423 [6:41:24<6:35:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7772/15423 [6:41:24<6:35:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7773/15423 [6:41:26<6:35:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7773/15423 [6:41:26<6:35:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7774/15423 [6:41:29<6:35:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7774/15423 [6:41:29<6:35:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7775/15423 [6:41:32<6:34:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7775/15423 [6:41:32<6:34:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7776/15423 [6:41:47<6:35:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7776/15423 [6:41:47<6:35:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7777/15423 [6:41:48<6:35:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7777/15423 [6:41:48<6:35:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7778/15423 [6:41:52<6:34:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7778/15423 [6:41:52<6:34:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7779/15423 [6:41:52<6:34:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7779/15423 [6:41:52<6:34:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7780/15423 [6:41:56<6:34:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7780/15423 [6:41:56<6:34:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7781/15423 [6:42:00<6:34:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7781/15423 [6:42:00<6:34:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7782/15423 [6:42:02<6:34:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7782/15423 [6:42:02<6:34:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7783/15423 [6:42:06<6:34:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7783/15423 [6:42:06<6:34:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7784/15423 [6:42:08<6:34:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7784/15423 [6:42:08<6:34:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7785/15423 [6:42:12<6:34:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7785/15423 [6:42:12<6:34:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7786/15423 [6:42:15<6:34:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7786/15423 [6:42:15<6:34:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7787/15423 [6:42:18<6:34:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7787/15423 [6:42:18<6:34:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  50%|▌| 7788/15423 [6:42:19<6:34:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  50%|▌| 7788/15423 [6:42:19<6:34:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7789/15423 [6:42:22<6:34:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7789/15423 [6:42:22<6:34:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7790/15423 [6:42:26<6:34:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7790/15423 [6:42:26<6:34:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7791/15423 [6:42:30<6:34:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7791/15423 [6:42:30<6:34:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7792/15423 [6:42:32<6:34:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7792/15423 [6:42:32<6:34:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7793/15423 [6:42:34<6:34:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7793/15423 [6:42:34<6:34:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7794/15423 [6:42:37<6:34:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7794/15423 [6:42:37<6:34:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7795/15423 [6:42:38<6:34:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7795/15423 [6:42:38<6:34:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7796/15423 [6:42:39<6:33:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7796/15423 [6:42:39<6:33:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7797/15423 [6:42:42<6:33:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7797/15423 [6:42:42<6:33:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7798/15423 [6:42:43<6:33:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7798/15423 [6:42:43<6:33:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7799/15423 [6:42:47<6:33:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7799/15423 [6:42:47<6:33:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7800/15423 [6:42:48<6:33:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7800/15423 [6:42:48<6:33:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7801/15423 [6:42:52<6:33:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7801/15423 [6:42:52<6:33:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7802/15423 [6:42:56<6:33:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7802/15423 [6:42:56<6:33:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7803/15423 [6:42:57<6:33:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7803/15423 [6:42:57<6:33:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7804/15423 [6:43:00<6:33:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7804/15423 [6:43:00<6:33:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7805/15423 [6:43:01<6:33:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7805/15423 [6:43:01<6:33:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7806/15423 [6:43:03<6:33:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7806/15423 [6:43:03<6:33:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7807/15423 [6:43:06<6:33:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7807/15423 [6:43:06<6:33:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7808/15423 [6:43:22<6:33:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7808/15423 [6:43:22<6:33:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7809/15423 [6:43:23<6:33:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7809/15423 [6:43:23<6:33:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7810/15423 [6:43:24<6:33:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7810/15423 [6:43:24<6:33:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7811/15423 [6:43:27<6:33:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7811/15423 [6:43:27<6:33:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7812/15423 [6:43:29<6:33:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7812/15423 [6:43:29<6:33:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7813/15423 [6:43:33<6:33:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7813/15423 [6:43:33<6:33:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7814/15423 [6:43:36<6:33:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7814/15423 [6:43:36<6:33:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7815/15423 [6:43:39<6:32:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7815/15423 [6:43:39<6:32:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7816/15423 [6:43:40<6:32:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7816/15423 [6:43:40<6:32:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7817/15423 [6:43:43<6:32:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7817/15423 [6:43:43<6:32:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7818/15423 [6:43:46<6:32:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7818/15423 [6:43:46<6:32:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7819/15423 [6:43:50<6:32:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7819/15423 [6:43:50<6:32:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7820/15423 [6:43:52<6:32:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7820/15423 [6:43:52<6:32:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7821/15423 [6:43:55<6:32:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7821/15423 [6:43:55<6:32:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7822/15423 [6:43:56<6:32:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7822/15423 [6:43:56<6:32:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7823/15423 [6:43:57<6:32:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7823/15423 [6:43:57<6:32:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7824/15423 [6:43:59<6:32:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7824/15423 [6:43:59<6:32:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7825/15423 [6:44:02<6:32:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7825/15423 [6:44:02<6:32:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7826/15423 [6:44:05<6:32:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7826/15423 [6:44:05<6:32:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7827/15423 [6:44:07<6:32:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7827/15423 [6:44:07<6:32:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7828/15423 [6:44:09<6:32:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7828/15423 [6:44:09<6:32:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7829/15423 [6:44:13<6:32:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7829/15423 [6:44:13<6:32:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7830/15423 [6:44:14<6:32:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7830/15423 [6:44:14<6:32:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7831/15423 [6:44:15<6:31:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7831/15423 [6:44:15<6:31:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7832/15423 [6:44:18<6:31:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7832/15423 [6:44:18<6:31:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7833/15423 [6:44:22<6:31:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7833/15423 [6:44:22<6:31:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7834/15423 [6:44:25<6:31:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7834/15423 [6:44:25<6:31:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7835/15423 [6:44:27<6:31:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7835/15423 [6:44:27<6:31:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7836/15423 [6:44:28<6:31:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7836/15423 [6:44:28<6:31:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7837/15423 [6:44:29<6:31:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7837/15423 [6:44:29<6:31:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7838/15423 [6:44:30<6:31:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7838/15423 [6:44:30<6:31:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7839/15423 [6:44:34<6:31:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7839/15423 [6:44:34<6:31:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7840/15423 [6:44:57<6:31:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7840/15423 [6:44:57<6:31:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7841/15423 [6:45:01<6:31:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7841/15423 [6:45:01<6:31:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7842/15423 [6:45:02<6:31:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7842/15423 [6:45:02<6:31:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7843/15423 [6:45:04<6:31:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7843/15423 [6:45:04<6:31:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7844/15423 [6:45:06<6:31:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7844/15423 [6:45:06<6:31:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7845/15423 [6:45:07<6:31:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7845/15423 [6:45:07<6:31:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7846/15423 [6:45:09<6:31:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7846/15423 [6:45:09<6:31:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7847/15423 [6:45:10<6:31:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7847/15423 [6:45:10<6:31:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7848/15423 [6:45:12<6:31:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7848/15423 [6:45:12<6:31:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7849/15423 [6:45:14<6:31:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7849/15423 [6:45:14<6:31:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7850/15423 [6:45:16<6:30:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7850/15423 [6:45:16<6:30:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7851/15423 [6:45:19<6:30:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7851/15423 [6:45:19<6:30:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7852/15423 [6:45:22<6:30:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7852/15423 [6:45:22<6:30:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7853/15423 [6:45:25<6:30:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7853/15423 [6:45:25<6:30:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7854/15423 [6:45:29<6:30:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7854/15423 [6:45:29<6:30:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7855/15423 [6:45:30<6:30:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7855/15423 [6:45:30<6:30:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7856/15423 [6:45:32<6:30:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7856/15423 [6:45:32<6:30:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7857/15423 [6:45:34<6:30:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7857/15423 [6:45:34<6:30:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7858/15423 [6:45:35<6:30:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7858/15423 [6:45:35<6:30:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7859/15423 [6:45:37<6:30:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7859/15423 [6:45:37<6:30:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7860/15423 [6:45:38<6:30:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7860/15423 [6:45:38<6:30:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7861/15423 [6:45:42<6:30:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7861/15423 [6:45:42<6:30:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7862/15423 [6:45:43<6:30:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7862/15423 [6:45:43<6:30:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7863/15423 [6:45:45<6:30:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7863/15423 [6:45:45<6:30:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7864/15423 [6:45:50<6:30:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7864/15423 [6:45:50<6:30:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7865/15423 [6:45:50<6:30:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7865/15423 [6:45:50<6:30:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7866/15423 [6:45:52<6:29:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7866/15423 [6:45:52<6:29:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7867/15423 [6:45:56<6:29:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7867/15423 [6:45:56<6:29:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7868/15423 [6:45:59<6:29:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7868/15423 [6:45:59<6:29:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7869/15423 [6:46:01<6:29:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7869/15423 [6:46:01<6:29:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7870/15423 [6:46:05<6:29:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7870/15423 [6:46:05<6:29:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7871/15423 [6:46:07<6:29:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7871/15423 [6:46:07<6:29:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7872/15423 [6:46:45<6:30:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7872/15423 [6:46:45<6:30:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7873/15423 [6:46:49<6:30:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7873/15423 [6:46:49<6:30:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7874/15423 [6:46:53<6:30:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7874/15423 [6:46:53<6:30:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7875/15423 [6:46:57<6:30:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7875/15423 [6:46:57<6:30:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7876/15423 [6:47:00<6:30:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7876/15423 [6:47:00<6:30:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7877/15423 [6:47:01<6:29:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7877/15423 [6:47:01<6:29:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7878/15423 [6:47:02<6:29:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7878/15423 [6:47:02<6:29:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7879/15423 [6:47:05<6:29:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7879/15423 [6:47:05<6:29:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7880/15423 [6:47:06<6:29:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7880/15423 [6:47:06<6:29:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7881/15423 [6:47:07<6:29:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7881/15423 [6:47:07<6:29:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7882/15423 [6:47:11<6:29:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7882/15423 [6:47:11<6:29:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7883/15423 [6:47:13<6:29:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7883/15423 [6:47:13<6:29:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7884/15423 [6:47:15<6:29:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7884/15423 [6:47:15<6:29:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7885/15423 [6:47:18<6:29:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7885/15423 [6:47:18<6:29:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7886/15423 [6:47:20<6:29:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7886/15423 [6:47:20<6:29:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7887/15423 [6:47:24<6:29:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7887/15423 [6:47:24<6:29:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7888/15423 [6:47:28<6:29:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7888/15423 [6:47:28<6:29:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7889/15423 [6:47:29<6:29:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7889/15423 [6:47:29<6:29:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7890/15423 [6:47:30<6:29:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7890/15423 [6:47:30<6:29:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7891/15423 [6:47:32<6:29:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7891/15423 [6:47:32<6:29:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7892/15423 [6:47:36<6:28:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7892/15423 [6:47:36<6:28:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7893/15423 [6:47:38<6:28:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7893/15423 [6:47:38<6:28:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7894/15423 [6:47:38<6:28:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7894/15423 [6:47:38<6:28:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7895/15423 [6:47:42<6:28:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7895/15423 [6:47:42<6:28:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7896/15423 [6:47:46<6:28:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7896/15423 [6:47:46<6:28:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7897/15423 [6:47:50<6:28:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7897/15423 [6:47:50<6:28:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7898/15423 [6:47:54<6:28:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7898/15423 [6:47:54<6:28:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7899/15423 [6:47:55<6:28:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7899/15423 [6:47:55<6:28:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7900/15423 [6:47:59<6:28:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7900/15423 [6:47:59<6:28:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7901/15423 [6:48:03<6:28:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7901/15423 [6:48:03<6:28:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7902/15423 [6:48:05<6:28:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7902/15423 [6:48:05<6:28:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7903/15423 [6:48:08<6:28:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7903/15423 [6:48:08<6:28:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7904/15423 [6:48:25<6:28:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7904/15423 [6:48:25<6:28:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7905/15423 [6:48:27<6:28:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7905/15423 [6:48:27<6:28:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7906/15423 [6:48:29<6:28:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7906/15423 [6:48:29<6:28:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7907/15423 [6:48:30<6:28:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7907/15423 [6:48:30<6:28:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7908/15423 [6:48:32<6:28:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7908/15423 [6:48:32<6:28:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7909/15423 [6:48:33<6:28:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7909/15423 [6:48:33<6:28:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7910/15423 [6:48:36<6:28:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7910/15423 [6:48:36<6:28:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7911/15423 [6:48:40<6:28:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7911/15423 [6:48:40<6:28:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7912/15423 [6:48:42<6:27:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7912/15423 [6:48:42<6:27:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7913/15423 [6:48:43<6:27:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7913/15423 [6:48:43<6:27:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7914/15423 [6:48:46<6:27:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7914/15423 [6:48:46<6:27:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7915/15423 [6:48:47<6:27:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7915/15423 [6:48:47<6:27:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7916/15423 [6:48:49<6:27:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7916/15423 [6:48:49<6:27:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7917/15423 [6:48:50<6:27:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7917/15423 [6:48:50<6:27:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7918/15423 [6:48:51<6:27:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7918/15423 [6:48:51<6:27:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7919/15423 [6:48:53<6:27:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7919/15423 [6:48:53<6:27:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7920/15423 [6:48:57<6:27:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7920/15423 [6:48:57<6:27:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7921/15423 [6:49:01<6:27:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7921/15423 [6:49:01<6:27:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7922/15423 [6:49:04<6:27:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7922/15423 [6:49:04<6:27:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7923/15423 [6:49:07<6:27:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7923/15423 [6:49:07<6:27:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7924/15423 [6:49:12<6:27:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7924/15423 [6:49:12<6:27:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7925/15423 [6:49:16<6:27:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7925/15423 [6:49:16<6:27:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7926/15423 [6:49:17<6:27:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7926/15423 [6:49:17<6:27:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7927/15423 [6:49:22<6:27:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7927/15423 [6:49:22<6:27:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7928/15423 [6:49:25<6:27:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7928/15423 [6:49:25<6:27:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7929/15423 [6:49:29<6:27:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7929/15423 [6:49:29<6:27:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7930/15423 [6:49:34<6:26:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7930/15423 [6:49:34<6:26:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7931/15423 [6:49:36<6:26:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7931/15423 [6:49:36<6:26:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7932/15423 [6:49:38<6:26:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7932/15423 [6:49:38<6:26:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7933/15423 [6:49:39<6:26:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7933/15423 [6:49:39<6:26:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7934/15423 [6:49:42<6:26:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7934/15423 [6:49:42<6:26:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7935/15423 [6:49:43<6:26:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7935/15423 [6:49:43<6:26:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7936/15423 [6:50:03<6:26:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7936/15423 [6:50:03<6:26:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7937/15423 [6:50:05<6:26:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7937/15423 [6:50:05<6:26:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7938/15423 [6:50:09<6:26:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7938/15423 [6:50:09<6:26:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7939/15423 [6:50:13<6:26:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7939/15423 [6:50:13<6:26:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7940/15423 [6:50:15<6:26:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7940/15423 [6:50:15<6:26:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7941/15423 [6:50:17<6:26:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7941/15423 [6:50:17<6:26:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  51%|▌| 7942/15423 [6:50:22<6:26:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  51%|▌| 7942/15423 [6:50:22<6:26:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7943/15423 [6:50:23<6:26:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7943/15423 [6:50:23<6:26:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7944/15423 [6:50:27<6:26:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7944/15423 [6:50:27<6:26:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7945/15423 [6:50:31<6:26:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7945/15423 [6:50:31<6:26:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7946/15423 [6:50:32<6:26:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7946/15423 [6:50:32<6:26:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7947/15423 [6:50:35<6:26:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7947/15423 [6:50:35<6:26:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7948/15423 [6:50:38<6:26:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7948/15423 [6:50:38<6:26:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7949/15423 [6:50:41<6:26:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7949/15423 [6:50:41<6:26:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7950/15423 [6:50:44<6:26:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7950/15423 [6:50:44<6:26:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7951/15423 [6:50:45<6:26:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7951/15423 [6:50:45<6:26:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7952/15423 [6:50:45<6:25:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7952/15423 [6:50:45<6:25:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7953/15423 [6:50:48<6:25:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7953/15423 [6:50:48<6:25:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7954/15423 [6:50:50<6:25:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7954/15423 [6:50:50<6:25:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7955/15423 [6:50:52<6:25:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7955/15423 [6:50:52<6:25:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7956/15423 [6:50:54<6:25:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7956/15423 [6:50:54<6:25:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7957/15423 [6:50:56<6:25:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7957/15423 [6:50:56<6:25:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7958/15423 [6:50:59<6:25:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7958/15423 [6:50:59<6:25:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7959/15423 [6:51:00<6:25:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7959/15423 [6:51:00<6:25:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7960/15423 [6:51:04<6:25:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7960/15423 [6:51:04<6:25:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7961/15423 [6:51:07<6:25:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7961/15423 [6:51:07<6:25:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7962/15423 [6:51:09<6:25:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7962/15423 [6:51:09<6:25:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7963/15423 [6:51:12<6:25:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7963/15423 [6:51:12<6:25:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7964/15423 [6:51:16<6:25:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7964/15423 [6:51:16<6:25:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7965/15423 [6:51:20<6:25:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7965/15423 [6:51:20<6:25:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7966/15423 [6:51:23<6:25:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7966/15423 [6:51:23<6:25:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7967/15423 [6:51:27<6:25:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7967/15423 [6:51:27<6:25:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7968/15423 [6:51:41<6:25:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7968/15423 [6:51:41<6:25:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7969/15423 [6:51:44<6:25:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7969/15423 [6:51:44<6:25:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7970/15423 [6:51:44<6:25:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7970/15423 [6:51:44<6:25:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7971/15423 [6:51:46<6:24:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7971/15423 [6:51:46<6:24:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7972/15423 [6:51:47<6:24:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7972/15423 [6:51:47<6:24:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7973/15423 [6:51:51<6:24:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7973/15423 [6:51:51<6:24:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7974/15423 [6:51:54<6:24:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7974/15423 [6:51:54<6:24:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7975/15423 [6:51:57<6:24:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7975/15423 [6:51:57<6:24:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7976/15423 [6:51:57<6:24:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7976/15423 [6:51:57<6:24:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7977/15423 [6:52:01<6:24:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7977/15423 [6:52:01<6:24:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7978/15423 [6:52:06<6:24:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7978/15423 [6:52:06<6:24:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7979/15423 [6:52:10<6:24:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7979/15423 [6:52:10<6:24:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7980/15423 [6:52:13<6:24:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7980/15423 [6:52:13<6:24:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7981/15423 [6:52:18<6:24:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7981/15423 [6:52:18<6:24:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7982/15423 [6:52:22<6:24:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7982/15423 [6:52:22<6:24:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7983/15423 [6:52:24<6:24:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7983/15423 [6:52:24<6:24:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7984/15423 [6:52:28<6:24:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7984/15423 [6:52:28<6:24:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7985/15423 [6:52:31<6:24:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7985/15423 [6:52:31<6:24:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7986/15423 [6:52:33<6:24:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7986/15423 [6:52:33<6:24:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7987/15423 [6:52:36<6:24:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7987/15423 [6:52:36<6:24:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7988/15423 [6:52:39<6:24:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7988/15423 [6:52:39<6:24:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7989/15423 [6:52:42<6:24:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7989/15423 [6:52:42<6:24:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7990/15423 [6:52:44<6:23:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7990/15423 [6:52:44<6:23:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7991/15423 [6:52:49<6:23:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7991/15423 [6:52:49<6:23:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7992/15423 [6:52:50<6:23:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7992/15423 [6:52:50<6:23:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7993/15423 [6:52:52<6:23:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7993/15423 [6:52:52<6:23:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7994/15423 [6:52:55<6:23:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7994/15423 [6:52:55<6:23:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7995/15423 [6:52:56<6:23:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7995/15423 [6:52:56<6:23:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7996/15423 [6:52:59<6:23:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7996/15423 [6:52:59<6:23:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7997/15423 [6:52:59<6:23:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7997/15423 [6:52:59<6:23:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7998/15423 [6:53:04<6:23:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7998/15423 [6:53:04<6:23:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 7999/15423 [6:53:05<6:23:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 7999/15423 [6:53:05<6:23:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8000/15423 [6:53:16<6:23:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8000/15423 [6:53:16<6:23:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8001/15423 [6:53:41<6:23:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8001/15423 [6:53:41<6:23:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8002/15423 [6:53:44<6:23:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8002/15423 [6:53:44<6:23:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8003/15423 [6:53:46<6:23:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8003/15423 [6:53:46<6:23:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8004/15423 [6:53:50<6:23:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8004/15423 [6:53:50<6:23:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8005/15423 [6:53:54<6:23:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8005/15423 [6:53:54<6:23:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8006/15423 [6:53:55<6:23:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8006/15423 [6:53:55<6:23:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8007/15423 [6:53:58<6:23:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8007/15423 [6:53:58<6:23:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8008/15423 [6:53:59<6:23:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8008/15423 [6:53:59<6:23:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8009/15423 [6:54:02<6:23:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8009/15423 [6:54:02<6:23:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8010/15423 [6:54:06<6:23:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8010/15423 [6:54:07<6:23:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8011/15423 [6:54:08<6:23:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8011/15423 [6:54:08<6:23:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8012/15423 [6:54:11<6:23:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8012/15423 [6:54:11<6:23:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8013/15423 [6:54:14<6:23:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8013/15423 [6:54:14<6:23:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8014/15423 [6:54:18<6:23:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8014/15423 [6:54:18<6:23:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8015/15423 [6:54:21<6:22:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8015/15423 [6:54:21<6:22:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8016/15423 [6:54:23<6:22:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8016/15423 [6:54:23<6:22:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8017/15423 [6:54:27<6:22:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8017/15423 [6:54:27<6:22:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8018/15423 [6:54:32<6:22:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8018/15423 [6:54:32<6:22:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8019/15423 [6:54:32<6:22:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8019/15423 [6:54:32<6:22:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8020/15423 [6:54:33<6:22:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8020/15423 [6:54:33<6:22:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8021/15423 [6:54:34<6:22:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8021/15423 [6:54:34<6:22:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8022/15423 [6:54:39<6:22:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8022/15423 [6:54:39<6:22:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8023/15423 [6:54:41<6:22:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8023/15423 [6:54:41<6:22:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8024/15423 [6:54:42<6:22:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8024/15423 [6:54:42<6:22:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8025/15423 [6:54:45<6:22:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8025/15423 [6:54:45<6:22:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8026/15423 [6:54:50<6:22:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8026/15423 [6:54:50<6:22:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8027/15423 [6:54:54<6:22:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8027/15423 [6:54:54<6:22:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8028/15423 [6:54:58<6:22:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8028/15423 [6:54:58<6:22:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8029/15423 [6:55:00<6:22:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8029/15423 [6:55:00<6:22:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8030/15423 [6:55:04<6:22:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8030/15423 [6:55:04<6:22:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8031/15423 [6:55:06<6:22:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8031/15423 [6:55:06<6:22:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8032/15423 [6:55:15<6:22:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8032/15423 [6:55:15<6:22:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8033/15423 [6:55:17<6:22:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8033/15423 [6:55:17<6:22:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8034/15423 [6:55:19<6:21:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8034/15423 [6:55:19<6:21:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8035/15423 [6:55:21<6:21:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8035/15423 [6:55:21<6:21:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8036/15423 [6:55:24<6:21:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8036/15423 [6:55:24<6:21:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8037/15423 [6:55:27<6:21:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8037/15423 [6:55:27<6:21:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8038/15423 [6:55:30<6:21:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8038/15423 [6:55:30<6:21:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8039/15423 [6:55:32<6:21:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8039/15423 [6:55:32<6:21:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8040/15423 [6:55:37<6:21:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8040/15423 [6:55:37<6:21:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8041/15423 [6:55:39<6:21:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8041/15423 [6:55:39<6:21:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8042/15423 [6:55:43<6:21:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8042/15423 [6:55:43<6:21:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8043/15423 [6:55:44<6:21:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8043/15423 [6:55:44<6:21:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8044/15423 [6:55:47<6:21:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8044/15423 [6:55:47<6:21:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8045/15423 [6:55:51<6:21:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8045/15423 [6:55:51<6:21:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8046/15423 [6:55:53<6:21:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8046/15423 [6:55:53<6:21:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8047/15423 [6:55:53<6:21:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8047/15423 [6:55:53<6:21:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8048/15423 [6:55:54<6:21:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8048/15423 [6:55:54<6:21:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8049/15423 [6:55:58<6:21:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8049/15423 [6:55:58<6:21:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8050/15423 [6:56:01<6:21:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8050/15423 [6:56:01<6:21:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8051/15423 [6:56:03<6:20:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8051/15423 [6:56:03<6:20:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8052/15423 [6:56:04<6:20:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8052/15423 [6:56:04<6:20:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8053/15423 [6:56:06<6:20:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8053/15423 [6:56:06<6:20:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8054/15423 [6:56:09<6:20:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8054/15423 [6:56:09<6:20:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8055/15423 [6:56:12<6:20:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8055/15423 [6:56:12<6:20:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8056/15423 [6:56:13<6:20:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8056/15423 [6:56:13<6:20:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8057/15423 [6:56:17<6:20:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8057/15423 [6:56:17<6:20:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8058/15423 [6:56:18<6:20:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8058/15423 [6:56:18<6:20:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8059/15423 [6:56:21<6:20:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8059/15423 [6:56:21<6:20:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8060/15423 [6:56:23<6:20:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8060/15423 [6:56:23<6:20:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8061/15423 [6:56:27<6:20:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8061/15423 [6:56:27<6:20:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8062/15423 [6:56:29<6:20:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8062/15423 [6:56:29<6:20:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8063/15423 [6:56:33<6:20:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8063/15423 [6:56:33<6:20:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8064/15423 [6:56:53<6:20:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8064/15423 [6:56:53<6:20:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8065/15423 [6:56:57<6:20:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8065/15423 [6:56:57<6:20:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8066/15423 [6:57:01<6:20:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8066/15423 [6:57:01<6:20:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8067/15423 [6:57:02<6:20:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8067/15423 [6:57:02<6:20:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8068/15423 [6:57:06<6:20:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8068/15423 [6:57:06<6:20:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8069/15423 [6:57:09<6:20:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8069/15423 [6:57:09<6:20:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8070/15423 [6:57:13<6:20:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8070/15423 [6:57:13<6:20:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8071/15423 [6:57:15<6:20:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8071/15423 [6:57:15<6:20:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8072/15423 [6:57:17<6:20:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8072/15423 [6:57:17<6:20:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8073/15423 [6:57:21<6:19:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8073/15423 [6:57:21<6:19:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8074/15423 [6:57:23<6:19:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8074/15423 [6:57:23<6:19:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8075/15423 [6:57:27<6:19:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8075/15423 [6:57:27<6:19:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8076/15423 [6:57:29<6:19:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8076/15423 [6:57:29<6:19:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8077/15423 [6:57:32<6:19:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8077/15423 [6:57:32<6:19:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8078/15423 [6:57:34<6:19:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8078/15423 [6:57:34<6:19:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8079/15423 [6:57:35<6:19:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8079/15423 [6:57:35<6:19:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8080/15423 [6:57:39<6:19:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8080/15423 [6:57:39<6:19:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8081/15423 [6:57:40<6:19:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8081/15423 [6:57:40<6:19:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8082/15423 [6:57:41<6:19:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8082/15423 [6:57:41<6:19:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8083/15423 [6:57:44<6:19:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8083/15423 [6:57:44<6:19:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8084/15423 [6:57:46<6:19:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8084/15423 [6:57:46<6:19:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8085/15423 [6:57:48<6:19:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8085/15423 [6:57:48<6:19:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8086/15423 [6:57:49<6:19:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8086/15423 [6:57:49<6:19:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8087/15423 [6:57:54<6:19:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8087/15423 [6:57:54<6:19:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8088/15423 [6:57:58<6:19:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8088/15423 [6:57:58<6:19:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8089/15423 [6:58:00<6:18:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8089/15423 [6:58:00<6:18:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8090/15423 [6:58:03<6:18:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8090/15423 [6:58:03<6:18:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8091/15423 [6:58:08<6:18:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8091/15423 [6:58:08<6:18:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8092/15423 [6:58:08<6:18:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8092/15423 [6:58:08<6:18:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8093/15423 [6:58:09<6:18:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8093/15423 [6:58:09<6:18:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8094/15423 [6:58:11<6:18:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8094/15423 [6:58:11<6:18:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8095/15423 [6:58:15<6:18:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8095/15423 [6:58:15<6:18:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8096/15423 [6:58:28<6:18:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8096/15423 [6:58:28<6:18:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  52%|▌| 8097/15423 [6:58:31<6:18:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  52%|▌| 8097/15423 [6:58:31<6:18:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8098/15423 [6:58:35<6:18:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8098/15423 [6:58:35<6:18:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8099/15423 [6:58:38<6:18:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8099/15423 [6:58:38<6:18:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8100/15423 [6:58:40<6:18:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8100/15423 [6:58:40<6:18:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8101/15423 [6:58:42<6:18:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8101/15423 [6:58:42<6:18:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8102/15423 [6:58:44<6:18:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8102/15423 [6:58:44<6:18:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8103/15423 [6:58:46<6:18:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8103/15423 [6:58:46<6:18:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8104/15423 [6:58:48<6:18:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8104/15423 [6:58:48<6:18:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8105/15423 [6:58:51<6:18:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8105/15423 [6:58:51<6:18:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8106/15423 [6:58:55<6:18:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8106/15423 [6:58:55<6:18:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8107/15423 [6:58:59<6:18:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8107/15423 [6:58:59<6:18:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8108/15423 [6:59:02<6:18:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8108/15423 [6:59:02<6:18:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8109/15423 [6:59:06<6:18:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8109/15423 [6:59:06<6:18:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8110/15423 [6:59:10<6:17:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8110/15423 [6:59:10<6:17:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8111/15423 [6:59:10<6:17:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8111/15423 [6:59:10<6:17:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8112/15423 [6:59:14<6:17:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8112/15423 [6:59:14<6:17:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8113/15423 [6:59:17<6:17:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8113/15423 [6:59:17<6:17:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8114/15423 [6:59:19<6:17:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8114/15423 [6:59:19<6:17:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8115/15423 [6:59:20<6:17:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8115/15423 [6:59:20<6:17:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8116/15423 [6:59:23<6:17:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8116/15423 [6:59:23<6:17:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8117/15423 [6:59:23<6:17:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8117/15423 [6:59:23<6:17:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8118/15423 [6:59:28<6:17:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8118/15423 [6:59:28<6:17:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8119/15423 [6:59:30<6:17:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8119/15423 [6:59:30<6:17:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8120/15423 [6:59:32<6:17:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8120/15423 [6:59:32<6:17:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8121/15423 [6:59:36<6:17:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8121/15423 [6:59:36<6:17:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8122/15423 [6:59:39<6:17:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8122/15423 [6:59:39<6:17:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8123/15423 [6:59:43<6:17:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8123/15423 [6:59:43<6:17:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8124/15423 [6:59:48<6:17:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8124/15423 [6:59:48<6:17:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8125/15423 [6:59:52<6:17:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8125/15423 [6:59:52<6:17:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8126/15423 [6:59:55<6:17:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8126/15423 [6:59:55<6:17:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8127/15423 [6:59:58<6:17:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8127/15423 [6:59:58<6:17:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8128/15423 [7:00:10<6:17:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8128/15423 [7:00:10<6:17:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8129/15423 [7:00:14<6:17:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8129/15423 [7:00:14<6:17:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8130/15423 [7:00:15<6:16:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8130/15423 [7:00:15<6:16:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8131/15423 [7:00:20<6:16:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8131/15423 [7:00:20<6:16:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8132/15423 [7:00:24<6:16:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8132/15423 [7:00:24<6:16:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8133/15423 [7:00:26<6:16:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8133/15423 [7:00:26<6:16:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8134/15423 [7:00:30<6:16:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8134/15423 [7:00:30<6:16:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8135/15423 [7:00:33<6:16:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8135/15423 [7:00:33<6:16:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8136/15423 [7:00:38<6:16:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8136/15423 [7:00:38<6:16:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8137/15423 [7:00:38<6:16:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8137/15423 [7:00:38<6:16:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8138/15423 [7:00:42<6:16:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8138/15423 [7:00:42<6:16:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8139/15423 [7:00:45<6:16:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8139/15423 [7:00:45<6:16:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8140/15423 [7:00:47<6:16:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8140/15423 [7:00:47<6:16:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8141/15423 [7:00:51<6:16:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8141/15423 [7:00:51<6:16:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8142/15423 [7:00:53<6:16:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8142/15423 [7:00:53<6:16:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8143/15423 [7:00:55<6:16:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8143/15423 [7:00:55<6:16:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8144/15423 [7:00:57<6:16:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8144/15423 [7:00:57<6:16:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8145/15423 [7:01:01<6:16:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8145/15423 [7:01:01<6:16:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8146/15423 [7:01:03<6:16:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8146/15423 [7:01:03<6:16:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8147/15423 [7:01:04<6:16:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8147/15423 [7:01:04<6:16:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8148/15423 [7:01:08<6:16:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8148/15423 [7:01:08<6:16:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8149/15423 [7:01:11<6:15:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8149/15423 [7:01:11<6:15:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8150/15423 [7:01:15<6:15:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8150/15423 [7:01:15<6:15:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8151/15423 [7:01:17<6:15:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8151/15423 [7:01:17<6:15:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8152/15423 [7:01:18<6:15:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8152/15423 [7:01:18<6:15:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8153/15423 [7:01:21<6:15:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8153/15423 [7:01:21<6:15:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8154/15423 [7:01:25<6:15:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8154/15423 [7:01:25<6:15:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8155/15423 [7:01:27<6:15:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8155/15423 [7:01:28<6:15:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8156/15423 [7:01:30<6:15:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8156/15423 [7:01:30<6:15:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8157/15423 [7:01:34<6:15:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8157/15423 [7:01:34<6:15:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8158/15423 [7:01:36<6:15:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8158/15423 [7:01:36<6:15:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8159/15423 [7:01:40<6:15:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8159/15423 [7:01:40<6:15:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8160/15423 [7:01:50<6:15:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8160/15423 [7:01:50<6:15:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8161/15423 [7:01:53<6:15:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8161/15423 [7:01:53<6:15:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8162/15423 [7:01:57<6:15:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8162/15423 [7:01:57<6:15:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8163/15423 [7:02:01<6:15:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8163/15423 [7:02:01<6:15:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8164/15423 [7:02:05<6:15:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8164/15423 [7:02:05<6:15:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8165/15423 [7:02:09<6:15:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8165/15423 [7:02:09<6:15:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8166/15423 [7:02:13<6:15:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8166/15423 [7:02:13<6:15:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8167/15423 [7:02:16<6:15:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8167/15423 [7:02:16<6:15:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8168/15423 [7:02:17<6:15:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8168/15423 [7:02:17<6:15:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8169/15423 [7:02:20<6:15:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8169/15423 [7:02:20<6:15:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8170/15423 [7:02:21<6:14:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8170/15423 [7:02:21<6:14:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8171/15423 [7:02:25<6:14:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8171/15423 [7:02:25<6:14:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8172/15423 [7:02:29<6:14:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8172/15423 [7:02:30<6:14:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8173/15423 [7:02:33<6:14:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8173/15423 [7:02:33<6:14:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8174/15423 [7:02:34<6:14:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8174/15423 [7:02:34<6:14:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8175/15423 [7:02:36<6:14:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8175/15423 [7:02:36<6:14:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8176/15423 [7:02:39<6:14:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8176/15423 [7:02:39<6:14:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8177/15423 [7:02:43<6:14:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8177/15423 [7:02:43<6:14:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8178/15423 [7:02:44<6:14:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8178/15423 [7:02:44<6:14:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8179/15423 [7:02:48<6:14:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8179/15423 [7:02:48<6:14:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8180/15423 [7:02:53<6:14:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8180/15423 [7:02:53<6:14:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8181/15423 [7:02:53<6:14:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8181/15423 [7:02:53<6:14:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8182/15423 [7:02:55<6:14:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8182/15423 [7:02:55<6:14:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8183/15423 [7:02:56<6:14:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8183/15423 [7:02:56<6:14:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8184/15423 [7:02:59<6:14:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8184/15423 [7:02:59<6:14:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8185/15423 [7:03:00<6:14:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8185/15423 [7:03:00<6:14:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8186/15423 [7:03:02<6:13:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8186/15423 [7:03:02<6:13:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8187/15423 [7:03:05<6:13:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8187/15423 [7:03:05<6:13:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8188/15423 [7:03:07<6:13:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8188/15423 [7:03:07<6:13:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8189/15423 [7:03:07<6:13:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8189/15423 [7:03:07<6:13:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8190/15423 [7:03:08<6:13:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8190/15423 [7:03:08<6:13:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8191/15423 [7:03:11<6:13:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8191/15423 [7:03:11<6:13:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8192/15423 [7:03:26<6:13:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8192/15423 [7:03:26<6:13:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8193/15423 [7:03:29<6:13:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8193/15423 [7:03:29<6:13:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8194/15423 [7:03:31<6:13:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8194/15423 [7:03:31<6:13:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8195/15423 [7:03:33<6:13:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8195/15423 [7:03:33<6:13:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8196/15423 [7:03:37<6:13:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8196/15423 [7:03:37<6:13:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8197/15423 [7:03:38<6:13:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8197/15423 [7:03:38<6:13:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8198/15423 [7:03:39<6:13:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8198/15423 [7:03:39<6:13:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8199/15423 [7:03:40<6:13:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8199/15423 [7:03:40<6:13:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8200/15423 [7:03:42<6:13:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8200/15423 [7:03:42<6:13:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8201/15423 [7:03:46<6:13:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8201/15423 [7:03:46<6:13:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8202/15423 [7:03:47<6:13:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8202/15423 [7:03:47<6:13:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8203/15423 [7:03:52<6:13:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8203/15423 [7:03:52<6:13:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8204/15423 [7:03:55<6:13:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8204/15423 [7:03:55<6:13:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8205/15423 [7:03:58<6:12:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8205/15423 [7:03:58<6:12:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8206/15423 [7:04:02<6:12:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8206/15423 [7:04:02<6:12:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8207/15423 [7:04:05<6:12:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8207/15423 [7:04:05<6:12:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8208/15423 [7:04:07<6:12:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8208/15423 [7:04:07<6:12:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8209/15423 [7:04:10<6:12:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8209/15423 [7:04:10<6:12:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8210/15423 [7:04:13<6:12:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8210/15423 [7:04:13<6:12:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8211/15423 [7:04:17<6:12:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8211/15423 [7:04:17<6:12:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8212/15423 [7:04:22<6:12:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8212/15423 [7:04:22<6:12:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8213/15423 [7:04:25<6:12:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8213/15423 [7:04:25<6:12:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8214/15423 [7:04:28<6:12:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8214/15423 [7:04:28<6:12:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8215/15423 [7:04:31<6:12:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8215/15423 [7:04:31<6:12:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8216/15423 [7:04:35<6:12:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8216/15423 [7:04:35<6:12:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8217/15423 [7:04:39<6:12:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8217/15423 [7:04:39<6:12:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8218/15423 [7:04:43<6:12:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8218/15423 [7:04:43<6:12:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8219/15423 [7:04:47<6:12:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8219/15423 [7:04:47<6:12:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8220/15423 [7:04:50<6:12:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8220/15423 [7:04:50<6:12:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8221/15423 [7:04:54<6:12:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8221/15423 [7:04:54<6:12:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8222/15423 [7:04:58<6:12:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8222/15423 [7:04:58<6:12:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8223/15423 [7:04:59<6:12:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8223/15423 [7:04:59<6:12:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8224/15423 [7:05:08<6:12:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8224/15423 [7:05:08<6:12:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8225/15423 [7:05:09<6:12:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8225/15423 [7:05:09<6:12:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8226/15423 [7:05:11<6:12:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8226/15423 [7:05:11<6:12:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8227/15423 [7:05:13<6:11:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8227/15423 [7:05:13<6:11:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8228/15423 [7:05:15<6:11:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8228/15423 [7:05:15<6:11:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8229/15423 [7:05:18<6:11:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8229/15423 [7:05:18<6:11:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8230/15423 [7:05:20<6:11:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8230/15423 [7:05:20<6:11:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8231/15423 [7:05:20<6:11:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8231/15423 [7:05:20<6:11:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8232/15423 [7:05:25<6:11:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8232/15423 [7:05:25<6:11:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8233/15423 [7:05:26<6:11:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8233/15423 [7:05:26<6:11:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8234/15423 [7:05:29<6:11:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8234/15423 [7:05:29<6:11:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8235/15423 [7:05:32<6:11:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8235/15423 [7:05:32<6:11:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8236/15423 [7:05:36<6:11:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8236/15423 [7:05:36<6:11:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8237/15423 [7:05:38<6:11:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8237/15423 [7:05:38<6:11:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8238/15423 [7:05:39<6:11:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8238/15423 [7:05:39<6:11:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8239/15423 [7:05:43<6:11:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8239/15423 [7:05:43<6:11:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8240/15423 [7:05:47<6:11:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8240/15423 [7:05:47<6:11:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8241/15423 [7:05:50<6:11:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8241/15423 [7:05:50<6:11:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8242/15423 [7:05:54<6:11:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8242/15423 [7:05:54<6:11:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8243/15423 [7:05:58<6:11:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8243/15423 [7:05:58<6:11:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8244/15423 [7:06:00<6:10:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8244/15423 [7:06:00<6:10:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8245/15423 [7:06:02<6:10:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8245/15423 [7:06:02<6:10:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8246/15423 [7:06:05<6:10:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8246/15423 [7:06:05<6:10:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8247/15423 [7:06:08<6:10:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8247/15423 [7:06:08<6:10:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8248/15423 [7:06:10<6:10:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8248/15423 [7:06:10<6:10:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8249/15423 [7:06:14<6:10:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8249/15423 [7:06:14<6:10:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8250/15423 [7:06:17<6:10:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8250/15423 [7:06:17<6:10:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  53%|▌| 8251/15423 [7:06:18<6:10:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  53%|▌| 8251/15423 [7:06:18<6:10:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8252/15423 [7:06:22<6:10:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8252/15423 [7:06:22<6:10:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8253/15423 [7:06:27<6:10:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8253/15423 [7:06:27<6:10:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8254/15423 [7:06:29<6:10:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8254/15423 [7:06:29<6:10:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8255/15423 [7:06:33<6:10:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8255/15423 [7:06:33<6:10:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8256/15423 [7:06:44<6:10:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8256/15423 [7:06:44<6:10:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8257/15423 [7:06:46<6:10:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8257/15423 [7:06:46<6:10:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8258/15423 [7:06:49<6:10:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8258/15423 [7:06:49<6:10:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8259/15423 [7:06:51<6:10:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8259/15423 [7:06:51<6:10:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8260/15423 [7:06:52<6:10:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8260/15423 [7:06:52<6:10:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8261/15423 [7:06:56<6:10:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8261/15423 [7:06:56<6:10:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8262/15423 [7:06:57<6:10:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8262/15423 [7:06:57<6:10:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8263/15423 [7:07:01<6:10:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8263/15423 [7:07:01<6:10:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8264/15423 [7:07:03<6:09:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8264/15423 [7:07:03<6:09:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8265/15423 [7:07:04<6:09:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8265/15423 [7:07:04<6:09:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8266/15423 [7:07:06<6:09:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8266/15423 [7:07:06<6:09:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8267/15423 [7:07:10<6:09:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8267/15423 [7:07:10<6:09:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8268/15423 [7:07:11<6:09:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8268/15423 [7:07:11<6:09:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8269/15423 [7:07:15<6:09:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8269/15423 [7:07:15<6:09:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8270/15423 [7:07:19<6:09:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8270/15423 [7:07:19<6:09:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8271/15423 [7:07:22<6:09:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8271/15423 [7:07:22<6:09:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8272/15423 [7:07:26<6:09:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8272/15423 [7:07:26<6:09:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8273/15423 [7:07:29<6:09:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8273/15423 [7:07:29<6:09:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8274/15423 [7:07:33<6:09:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8274/15423 [7:07:33<6:09:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8275/15423 [7:07:35<6:09:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8275/15423 [7:07:35<6:09:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8276/15423 [7:07:36<6:09:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8276/15423 [7:07:36<6:09:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8277/15423 [7:07:38<6:09:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8277/15423 [7:07:38<6:09:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8278/15423 [7:07:41<6:09:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8278/15423 [7:07:41<6:09:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8279/15423 [7:07:42<6:09:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8279/15423 [7:07:42<6:09:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8280/15423 [7:07:46<6:09:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8280/15423 [7:07:46<6:09:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8281/15423 [7:07:50<6:08:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8281/15423 [7:07:50<6:08:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8282/15423 [7:07:51<6:08:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8282/15423 [7:07:51<6:08:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8283/15423 [7:07:55<6:08:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8283/15423 [7:07:55<6:08:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8284/15423 [7:07:58<6:08:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8284/15423 [7:07:58<6:08:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8285/15423 [7:08:00<6:08:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8285/15423 [7:08:00<6:08:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8286/15423 [7:08:03<6:08:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8286/15423 [7:08:03<6:08:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8287/15423 [7:08:04<6:08:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8287/15423 [7:08:04<6:08:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8288/15423 [7:08:15<6:08:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8288/15423 [7:08:15<6:08:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8289/15423 [7:08:20<6:08:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8289/15423 [7:08:20<6:08:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8290/15423 [7:08:21<6:08:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8290/15423 [7:08:21<6:08:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8291/15423 [7:08:24<6:08:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8291/15423 [7:08:24<6:08:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8292/15423 [7:08:27<6:08:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8292/15423 [7:08:27<6:08:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8293/15423 [7:08:28<6:08:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8293/15423 [7:08:28<6:08:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8294/15423 [7:08:31<6:08:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8294/15423 [7:08:31<6:08:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8295/15423 [7:08:35<6:08:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8295/15423 [7:08:35<6:08:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8296/15423 [7:08:35<6:08:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8296/15423 [7:08:35<6:08:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8297/15423 [7:08:36<6:08:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8297/15423 [7:08:36<6:08:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8298/15423 [7:08:39<6:08:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8298/15423 [7:08:39<6:08:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8299/15423 [7:08:42<6:08:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8299/15423 [7:08:42<6:08:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8300/15423 [7:08:44<6:07:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8300/15423 [7:08:44<6:07:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8301/15423 [7:08:46<6:07:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8301/15423 [7:08:46<6:07:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8302/15423 [7:08:48<6:07:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8302/15423 [7:08:48<6:07:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8303/15423 [7:08:53<6:07:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8303/15423 [7:08:53<6:07:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8304/15423 [7:08:56<6:07:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8304/15423 [7:08:56<6:07:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8305/15423 [7:09:01<6:07:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8305/15423 [7:09:01<6:07:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8306/15423 [7:09:05<6:07:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8306/15423 [7:09:05<6:07:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8307/15423 [7:09:07<6:07:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8307/15423 [7:09:07<6:07:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8308/15423 [7:09:08<6:07:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8308/15423 [7:09:08<6:07:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8309/15423 [7:09:11<6:07:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8309/15423 [7:09:11<6:07:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8310/15423 [7:09:13<6:07:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8310/15423 [7:09:13<6:07:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8311/15423 [7:09:15<6:07:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8311/15423 [7:09:15<6:07:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8312/15423 [7:09:19<6:07:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8312/15423 [7:09:19<6:07:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8313/15423 [7:09:21<6:07:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8313/15423 [7:09:21<6:07:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8314/15423 [7:09:22<6:07:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8314/15423 [7:09:22<6:07:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8315/15423 [7:09:25<6:07:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8315/15423 [7:09:25<6:07:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8316/15423 [7:09:29<6:07:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8316/15423 [7:09:29<6:07:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8317/15423 [7:09:31<6:06:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8317/15423 [7:09:31<6:06:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8318/15423 [7:09:35<6:06:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8318/15423 [7:09:35<6:06:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8319/15423 [7:09:40<6:06:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8319/15423 [7:09:40<6:06:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8320/15423 [7:09:49<6:06:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8320/15423 [7:09:49<6:06:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8321/15423 [7:09:51<6:06:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8321/15423 [7:09:51<6:06:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8322/15423 [7:09:53<6:06:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8322/15423 [7:09:53<6:06:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8323/15423 [7:09:56<6:06:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8323/15423 [7:09:56<6:06:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8324/15423 [7:09:57<6:06:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8324/15423 [7:09:57<6:06:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8325/15423 [7:10:02<6:06:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8325/15423 [7:10:02<6:06:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8326/15423 [7:10:04<6:06:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8326/15423 [7:10:04<6:06:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8327/15423 [7:10:08<6:06:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8327/15423 [7:10:08<6:06:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8328/15423 [7:10:09<6:06:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8328/15423 [7:10:09<6:06:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8329/15423 [7:10:10<6:06:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8329/15423 [7:10:10<6:06:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8330/15423 [7:10:11<6:06:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8330/15423 [7:10:11<6:06:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8331/15423 [7:10:15<6:06:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8331/15423 [7:10:15<6:06:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8332/15423 [7:10:20<6:06:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8332/15423 [7:10:20<6:06:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8333/15423 [7:10:22<6:06:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8333/15423 [7:10:22<6:06:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8334/15423 [7:10:25<6:06:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8334/15423 [7:10:25<6:06:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8335/15423 [7:10:29<6:06:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8335/15423 [7:10:29<6:06:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8336/15423 [7:10:31<6:06:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8336/15423 [7:10:31<6:06:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8337/15423 [7:10:35<6:05:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8337/15423 [7:10:35<6:05:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8338/15423 [7:10:37<6:05:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8338/15423 [7:10:37<6:05:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8339/15423 [7:10:41<6:05:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8339/15423 [7:10:41<6:05:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8340/15423 [7:10:44<6:05:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8340/15423 [7:10:44<6:05:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8341/15423 [7:10:45<6:05:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8341/15423 [7:10:45<6:05:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8342/15423 [7:10:47<6:05:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8342/15423 [7:10:47<6:05:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8343/15423 [7:10:51<6:05:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8343/15423 [7:10:51<6:05:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8344/15423 [7:10:56<6:05:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8344/15423 [7:10:56<6:05:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8345/15423 [7:11:00<6:05:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8345/15423 [7:11:00<6:05:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8346/15423 [7:11:03<6:05:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8346/15423 [7:11:03<6:05:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8347/15423 [7:11:05<6:05:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8347/15423 [7:11:05<6:05:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8348/15423 [7:11:08<6:05:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8348/15423 [7:11:08<6:05:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8349/15423 [7:11:12<6:05:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8349/15423 [7:11:12<6:05:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8350/15423 [7:11:14<6:05:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8350/15423 [7:11:14<6:05:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8351/15423 [7:11:14<6:05:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8351/15423 [7:11:14<6:05:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8352/15423 [7:11:26<6:05:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8352/15423 [7:11:26<6:05:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8353/15423 [7:11:29<6:05:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8353/15423 [7:11:29<6:05:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8354/15423 [7:11:32<6:05:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8354/15423 [7:11:32<6:05:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8355/15423 [7:11:34<6:05:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8355/15423 [7:11:34<6:05:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8356/15423 [7:11:35<6:05:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8356/15423 [7:11:35<6:05:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8357/15423 [7:11:37<6:04:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8357/15423 [7:11:37<6:04:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8358/15423 [7:11:38<6:04:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8358/15423 [7:11:38<6:04:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8359/15423 [7:11:39<6:04:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8359/15423 [7:11:39<6:04:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8360/15423 [7:11:39<6:04:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8360/15423 [7:11:39<6:04:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8361/15423 [7:11:40<6:04:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8361/15423 [7:11:40<6:04:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8362/15423 [7:11:42<6:04:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8362/15423 [7:11:42<6:04:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8363/15423 [7:11:43<6:04:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8363/15423 [7:11:43<6:04:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8364/15423 [7:11:44<6:04:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8364/15423 [7:11:44<6:04:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8365/15423 [7:11:44<6:04:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8365/15423 [7:11:44<6:04:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8366/15423 [7:11:46<6:04:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8366/15423 [7:11:46<6:04:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8367/15423 [7:11:48<6:04:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8367/15423 [7:11:48<6:04:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8368/15423 [7:11:50<6:04:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8368/15423 [7:11:50<6:04:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8369/15423 [7:11:51<6:04:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8369/15423 [7:11:51<6:04:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8370/15423 [7:11:53<6:03:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8370/15423 [7:11:53<6:03:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8371/15423 [7:11:57<6:03:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8371/15423 [7:11:57<6:03:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8372/15423 [7:12:00<6:03:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8372/15423 [7:12:00<6:03:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8373/15423 [7:12:05<6:03:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8373/15423 [7:12:05<6:03:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8374/15423 [7:12:07<6:03:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8374/15423 [7:12:07<6:03:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8375/15423 [7:12:10<6:03:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8375/15423 [7:12:10<6:03:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8376/15423 [7:12:11<6:03:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8376/15423 [7:12:11<6:03:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8377/15423 [7:12:14<6:03:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8377/15423 [7:12:14<6:03:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8378/15423 [7:12:17<6:03:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8378/15423 [7:12:17<6:03:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8379/15423 [7:12:21<6:03:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8379/15423 [7:12:21<6:03:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8380/15423 [7:12:23<6:03:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8380/15423 [7:12:23<6:03:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8381/15423 [7:12:25<6:03:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8381/15423 [7:12:25<6:03:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8382/15423 [7:12:28<6:03:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8382/15423 [7:12:28<6:03:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8383/15423 [7:12:29<6:03:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8383/15423 [7:12:29<6:03:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8384/15423 [7:13:06<6:03:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8384/15423 [7:13:06<6:03:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8385/15423 [7:13:07<6:03:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8385/15423 [7:13:07<6:03:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8386/15423 [7:13:08<6:03:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8386/15423 [7:13:08<6:03:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8387/15423 [7:13:11<6:03:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8387/15423 [7:13:11<6:03:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8388/15423 [7:13:12<6:03:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8388/15423 [7:13:12<6:03:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8389/15423 [7:13:14<6:03:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8389/15423 [7:13:14<6:03:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8390/15423 [7:13:16<6:03:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8390/15423 [7:13:16<6:03:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8391/15423 [7:13:19<6:03:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8391/15423 [7:13:19<6:03:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8392/15423 [7:13:20<6:03:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8392/15423 [7:13:20<6:03:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8393/15423 [7:13:21<6:02:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8393/15423 [7:13:21<6:02:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8394/15423 [7:13:22<6:02:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8394/15423 [7:13:22<6:02:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8395/15423 [7:13:26<6:02:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8395/15423 [7:13:26<6:02:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8396/15423 [7:13:29<6:02:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8396/15423 [7:13:29<6:02:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8397/15423 [7:13:32<6:02:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8397/15423 [7:13:32<6:02:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8398/15423 [7:13:34<6:02:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8398/15423 [7:13:34<6:02:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8399/15423 [7:13:35<6:02:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8399/15423 [7:13:35<6:02:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8400/15423 [7:13:39<6:02:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8400/15423 [7:13:39<6:02:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8401/15423 [7:13:40<6:02:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8401/15423 [7:13:40<6:02:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8402/15423 [7:13:44<6:02:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8402/15423 [7:13:44<6:02:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8403/15423 [7:13:48<6:02:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8403/15423 [7:13:48<6:02:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8404/15423 [7:13:51<6:02:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8404/15423 [7:13:51<6:02:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  54%|▌| 8405/15423 [7:13:53<6:02:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  54%|▌| 8405/15423 [7:13:53<6:02:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8406/15423 [7:13:56<6:02:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8406/15423 [7:13:56<6:02:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8407/15423 [7:13:58<6:02:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8407/15423 [7:13:58<6:02:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8408/15423 [7:13:59<6:02:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8408/15423 [7:13:59<6:02:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8409/15423 [7:14:01<6:02:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8409/15423 [7:14:01<6:02:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8410/15423 [7:14:05<6:01:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8410/15423 [7:14:05<6:01:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8411/15423 [7:14:09<6:01:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8411/15423 [7:14:09<6:01:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8412/15423 [7:14:13<6:01:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8412/15423 [7:14:13<6:01:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8413/15423 [7:14:14<6:01:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8413/15423 [7:14:14<6:01:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8414/15423 [7:14:16<6:01:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8414/15423 [7:14:16<6:01:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8415/15423 [7:14:20<6:01:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8415/15423 [7:14:20<6:01:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8416/15423 [7:14:47<6:01:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8416/15423 [7:14:47<6:01:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8417/15423 [7:14:49<6:01:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8417/15423 [7:14:49<6:01:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8418/15423 [7:14:52<6:01:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8418/15423 [7:14:52<6:01:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8419/15423 [7:14:55<6:01:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8419/15423 [7:14:55<6:01:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8420/15423 [7:14:57<6:01:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8420/15423 [7:14:57<6:01:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8421/15423 [7:15:01<6:01:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8421/15423 [7:15:01<6:01:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8422/15423 [7:15:03<6:01:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8422/15423 [7:15:03<6:01:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8423/15423 [7:15:06<6:01:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8423/15423 [7:15:06<6:01:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8424/15423 [7:15:09<6:01:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8424/15423 [7:15:09<6:01:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8425/15423 [7:15:11<6:01:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8425/15423 [7:15:11<6:01:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8426/15423 [7:15:13<6:01:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8426/15423 [7:15:13<6:01:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8427/15423 [7:15:16<6:01:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8427/15423 [7:15:16<6:01:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8428/15423 [7:15:18<6:01:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8428/15423 [7:15:18<6:01:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8429/15423 [7:15:21<6:01:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8429/15423 [7:15:21<6:01:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8430/15423 [7:15:24<6:01:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8430/15423 [7:15:24<6:01:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8431/15423 [7:15:27<6:01:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8431/15423 [7:15:27<6:01:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8432/15423 [7:15:29<6:01:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8432/15423 [7:15:29<6:01:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8433/15423 [7:15:30<6:00:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8433/15423 [7:15:30<6:00:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8434/15423 [7:15:32<6:00:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8434/15423 [7:15:32<6:00:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8435/15423 [7:15:34<6:00:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8435/15423 [7:15:34<6:00:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8436/15423 [7:15:36<6:00:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8436/15423 [7:15:36<6:00:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8437/15423 [7:15:38<6:00:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8437/15423 [7:15:38<6:00:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8438/15423 [7:15:40<6:00:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8438/15423 [7:15:40<6:00:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8439/15423 [7:15:42<6:00:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8439/15423 [7:15:42<6:00:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8440/15423 [7:15:45<6:00:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8440/15423 [7:15:45<6:00:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8441/15423 [7:15:48<6:00:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8441/15423 [7:15:48<6:00:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8442/15423 [7:15:50<6:00:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8442/15423 [7:15:50<6:00:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8443/15423 [7:15:51<6:00:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8443/15423 [7:15:51<6:00:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8444/15423 [7:15:54<6:00:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8444/15423 [7:15:54<6:00:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8445/15423 [7:15:56<6:00:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8445/15423 [7:15:56<6:00:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8446/15423 [7:15:58<6:00:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8446/15423 [7:15:58<6:00:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8447/15423 [7:16:01<6:00:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8447/15423 [7:16:01<6:00:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8448/15423 [7:16:24<6:00:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8448/15423 [7:16:24<6:00:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8449/15423 [7:16:25<6:00:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8449/15423 [7:16:25<6:00:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8450/15423 [7:16:30<6:00:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8450/15423 [7:16:30<6:00:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8451/15423 [7:16:31<6:00:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8451/15423 [7:16:31<6:00:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8452/15423 [7:16:33<6:00:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8452/15423 [7:16:33<6:00:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8453/15423 [7:16:33<5:59:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8453/15423 [7:16:33<5:59:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8454/15423 [7:16:35<5:59:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8454/15423 [7:16:35<5:59:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8455/15423 [7:16:39<5:59:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8455/15423 [7:16:39<5:59:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8456/15423 [7:16:43<5:59:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8456/15423 [7:16:43<5:59:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8457/15423 [7:16:46<5:59:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8457/15423 [7:16:46<5:59:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8458/15423 [7:16:47<5:59:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8458/15423 [7:16:47<5:59:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8459/15423 [7:16:49<5:59:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8459/15423 [7:16:49<5:59:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8460/15423 [7:16:49<5:59:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8460/15423 [7:16:49<5:59:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8461/15423 [7:16:52<5:59:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8461/15423 [7:16:52<5:59:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8462/15423 [7:16:55<5:59:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8462/15423 [7:16:55<5:59:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8463/15423 [7:16:56<5:59:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8463/15423 [7:16:56<5:59:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8464/15423 [7:16:59<5:59:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8464/15423 [7:16:59<5:59:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8465/15423 [7:17:02<5:59:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8465/15423 [7:17:02<5:59:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8466/15423 [7:17:03<5:59:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8466/15423 [7:17:03<5:59:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8467/15423 [7:17:06<5:59:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8467/15423 [7:17:06<5:59:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8468/15423 [7:17:11<5:59:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8468/15423 [7:17:11<5:59:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8469/15423 [7:17:13<5:59:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8469/15423 [7:17:13<5:59:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8470/15423 [7:17:15<5:58:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8470/15423 [7:17:15<5:58:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8471/15423 [7:17:16<5:58:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8471/15423 [7:17:16<5:58:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8472/15423 [7:17:17<5:58:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8472/15423 [7:17:17<5:58:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8473/15423 [7:17:20<5:58:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8473/15423 [7:17:20<5:58:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8474/15423 [7:17:21<5:58:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8474/15423 [7:17:21<5:58:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8475/15423 [7:17:24<5:58:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8475/15423 [7:17:24<5:58:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8476/15423 [7:17:25<5:58:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8476/15423 [7:17:25<5:58:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8477/15423 [7:17:27<5:58:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8477/15423 [7:17:27<5:58:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8478/15423 [7:17:30<5:58:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8478/15423 [7:17:30<5:58:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8479/15423 [7:17:33<5:58:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8479/15423 [7:17:33<5:58:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8480/15423 [7:18:02<5:58:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8480/15423 [7:18:02<5:58:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8481/15423 [7:18:06<5:58:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8481/15423 [7:18:06<5:58:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8482/15423 [7:18:08<5:58:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8482/15423 [7:18:08<5:58:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8483/15423 [7:18:11<5:58:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8483/15423 [7:18:11<5:58:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8484/15423 [7:18:15<5:58:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8484/15423 [7:18:15<5:58:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8485/15423 [7:18:17<5:58:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8485/15423 [7:18:17<5:58:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8486/15423 [7:18:22<5:58:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8486/15423 [7:18:22<5:58:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8487/15423 [7:18:24<5:58:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8487/15423 [7:18:24<5:58:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8488/15423 [7:18:29<5:58:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8488/15423 [7:18:29<5:58:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8489/15423 [7:18:31<5:58:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8489/15423 [7:18:31<5:58:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8490/15423 [7:18:35<5:58:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8490/15423 [7:18:35<5:58:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8491/15423 [7:18:39<5:58:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8491/15423 [7:18:39<5:58:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8492/15423 [7:18:41<5:58:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8492/15423 [7:18:41<5:58:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8493/15423 [7:18:44<5:58:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8493/15423 [7:18:44<5:58:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8494/15423 [7:18:46<5:57:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8494/15423 [7:18:46<5:57:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8495/15423 [7:18:48<5:57:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8495/15423 [7:18:48<5:57:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8496/15423 [7:18:51<5:57:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8496/15423 [7:18:51<5:57:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8497/15423 [7:18:52<5:57:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8497/15423 [7:18:52<5:57:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8498/15423 [7:18:54<5:57:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8498/15423 [7:18:54<5:57:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8499/15423 [7:18:55<5:57:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8499/15423 [7:18:55<5:57:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8500/15423 [7:18:56<5:57:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8500/15423 [7:18:56<5:57:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8501/15423 [7:19:00<5:57:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8501/15423 [7:19:00<5:57:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8502/15423 [7:19:01<5:57:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8502/15423 [7:19:01<5:57:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8503/15423 [7:19:03<5:57:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8503/15423 [7:19:03<5:57:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8504/15423 [7:19:06<5:57:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8504/15423 [7:19:06<5:57:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8505/15423 [7:19:09<5:57:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8505/15423 [7:19:09<5:57:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8506/15423 [7:19:13<5:57:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8506/15423 [7:19:13<5:57:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8507/15423 [7:19:16<5:57:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8507/15423 [7:19:16<5:57:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8508/15423 [7:19:20<5:57:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8508/15423 [7:19:20<5:57:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8509/15423 [7:19:22<5:57:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8509/15423 [7:19:22<5:57:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8510/15423 [7:19:25<5:56:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8510/15423 [7:19:25<5:56:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8511/15423 [7:19:29<5:56:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8511/15423 [7:19:29<5:56:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8512/15423 [7:19:39<5:56:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8512/15423 [7:19:39<5:56:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8513/15423 [7:19:43<5:56:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8513/15423 [7:19:43<5:56:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8514/15423 [7:19:48<5:56:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8514/15423 [7:19:48<5:56:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8515/15423 [7:19:51<5:56:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8515/15423 [7:19:51<5:56:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8516/15423 [7:19:55<5:56:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8516/15423 [7:19:55<5:56:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8517/15423 [7:19:59<5:56:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8517/15423 [7:19:59<5:56:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8518/15423 [7:20:01<5:56:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8518/15423 [7:20:01<5:56:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8519/15423 [7:20:05<5:56:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8519/15423 [7:20:05<5:56:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8520/15423 [7:20:09<5:56:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8520/15423 [7:20:09<5:56:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8521/15423 [7:20:12<5:56:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8521/15423 [7:20:12<5:56:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8522/15423 [7:20:12<5:56:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8522/15423 [7:20:12<5:56:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8523/15423 [7:20:17<5:56:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8523/15423 [7:20:17<5:56:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8524/15423 [7:20:19<5:56:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8524/15423 [7:20:19<5:56:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8525/15423 [7:20:23<5:56:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8525/15423 [7:20:23<5:56:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8526/15423 [7:20:28<5:56:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8526/15423 [7:20:28<5:56:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8527/15423 [7:20:29<5:56:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8527/15423 [7:20:29<5:56:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8528/15423 [7:20:34<5:56:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8528/15423 [7:20:34<5:56:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8529/15423 [7:20:36<5:56:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8529/15423 [7:20:36<5:56:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8530/15423 [7:20:37<5:56:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8530/15423 [7:20:37<5:56:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8531/15423 [7:20:41<5:56:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8531/15423 [7:20:41<5:56:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8532/15423 [7:20:45<5:55:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8532/15423 [7:20:45<5:55:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8533/15423 [7:20:47<5:55:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8533/15423 [7:20:47<5:55:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8534/15423 [7:20:48<5:55:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8534/15423 [7:20:48<5:55:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8535/15423 [7:20:49<5:55:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8535/15423 [7:20:49<5:55:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8536/15423 [7:20:51<5:55:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8536/15423 [7:20:51<5:55:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8537/15423 [7:20:55<5:55:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8537/15423 [7:20:55<5:55:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8538/15423 [7:20:57<5:55:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8538/15423 [7:20:57<5:55:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8539/15423 [7:20:59<5:55:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8539/15423 [7:20:59<5:55:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8540/15423 [7:21:03<5:55:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8540/15423 [7:21:03<5:55:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8541/15423 [7:21:05<5:55:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8541/15423 [7:21:05<5:55:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8542/15423 [7:21:09<5:55:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8542/15423 [7:21:09<5:55:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8543/15423 [7:21:13<5:55:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8543/15423 [7:21:13<5:55:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8544/15423 [7:21:25<5:55:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8544/15423 [7:21:25<5:55:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8545/15423 [7:21:27<5:55:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8545/15423 [7:21:27<5:55:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8546/15423 [7:21:29<5:55:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8546/15423 [7:21:29<5:55:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8547/15423 [7:21:30<5:55:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8547/15423 [7:21:30<5:55:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8548/15423 [7:21:32<5:55:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8548/15423 [7:21:32<5:55:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8549/15423 [7:21:33<5:55:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8549/15423 [7:21:33<5:55:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8550/15423 [7:21:35<5:54:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8550/15423 [7:21:35<5:54:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8551/15423 [7:21:39<5:54:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8551/15423 [7:21:39<5:54:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8552/15423 [7:21:41<5:54:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8552/15423 [7:21:41<5:54:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8553/15423 [7:21:45<5:54:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8553/15423 [7:21:45<5:54:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8554/15423 [7:21:47<5:54:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8554/15423 [7:21:47<5:54:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8555/15423 [7:21:51<5:54:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8555/15423 [7:21:51<5:54:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8556/15423 [7:21:54<5:54:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8556/15423 [7:21:54<5:54:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8557/15423 [7:21:56<5:54:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8557/15423 [7:21:56<5:54:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8558/15423 [7:21:58<5:54:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  55%|▌| 8558/15423 [7:21:58<5:54:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8559/15423 [7:22:01<5:54:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  55%|▌| 8559/15423 [7:22:01<5:54:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8560/15423 [7:22:02<5:54:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8560/15423 [7:22:02<5:54:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8561/15423 [7:22:05<5:54:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8561/15423 [7:22:05<5:54:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8562/15423 [7:22:07<5:54:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8562/15423 [7:22:07<5:54:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8563/15423 [7:22:11<5:54:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8563/15423 [7:22:11<5:54:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8564/15423 [7:22:14<5:54:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8564/15423 [7:22:14<5:54:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8565/15423 [7:22:18<5:54:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8565/15423 [7:22:18<5:54:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8566/15423 [7:22:22<5:54:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8566/15423 [7:22:22<5:54:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8567/15423 [7:22:24<5:54:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8567/15423 [7:22:24<5:54:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8568/15423 [7:22:27<5:53:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8568/15423 [7:22:27<5:53:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8569/15423 [7:22:30<5:53:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8569/15423 [7:22:30<5:53:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8570/15423 [7:22:35<5:53:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8570/15423 [7:22:35<5:53:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8571/15423 [7:22:39<5:53:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8571/15423 [7:22:39<5:53:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8572/15423 [7:22:41<5:53:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8572/15423 [7:22:41<5:53:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8573/15423 [7:22:44<5:53:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8573/15423 [7:22:44<5:53:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8574/15423 [7:22:45<5:53:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8574/15423 [7:22:45<5:53:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8575/15423 [7:22:50<5:53:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8575/15423 [7:22:50<5:53:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8576/15423 [7:22:58<5:53:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8576/15423 [7:22:58<5:53:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8577/15423 [7:23:02<5:53:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8577/15423 [7:23:02<5:53:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8578/15423 [7:23:03<5:53:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8578/15423 [7:23:03<5:53:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8579/15423 [7:23:05<5:53:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8579/15423 [7:23:05<5:53:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8580/15423 [7:23:09<5:53:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8580/15423 [7:23:09<5:53:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8581/15423 [7:23:10<5:53:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8581/15423 [7:23:10<5:53:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8582/15423 [7:23:14<5:53:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8582/15423 [7:23:14<5:53:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8583/15423 [7:23:18<5:53:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8583/15423 [7:23:18<5:53:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8584/15423 [7:23:19<5:53:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8584/15423 [7:23:19<5:53:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8585/15423 [7:23:23<5:53:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8585/15423 [7:23:23<5:53:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8586/15423 [7:23:25<5:53:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8586/15423 [7:23:25<5:53:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8587/15423 [7:23:27<5:53:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8587/15423 [7:23:27<5:53:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8588/15423 [7:23:32<5:53:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8588/15423 [7:23:32<5:53:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8589/15423 [7:23:33<5:52:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8589/15423 [7:23:33<5:52:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8590/15423 [7:23:33<5:52:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8590/15423 [7:23:33<5:52:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8591/15423 [7:23:37<5:52:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8591/15423 [7:23:37<5:52:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8592/15423 [7:23:40<5:52:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8592/15423 [7:23:40<5:52:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8593/15423 [7:23:41<5:52:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8593/15423 [7:23:41<5:52:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8594/15423 [7:23:43<5:52:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8594/15423 [7:23:43<5:52:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8595/15423 [7:23:45<5:52:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8595/15423 [7:23:45<5:52:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8596/15423 [7:23:48<5:52:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8596/15423 [7:23:48<5:52:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8597/15423 [7:23:51<5:52:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8597/15423 [7:23:51<5:52:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8598/15423 [7:23:55<5:52:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8598/15423 [7:23:55<5:52:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8599/15423 [7:23:58<5:52:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8599/15423 [7:23:58<5:52:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8600/15423 [7:24:02<5:52:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8600/15423 [7:24:02<5:52:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8601/15423 [7:24:03<5:52:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8601/15423 [7:24:03<5:52:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8602/15423 [7:24:06<5:52:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8602/15423 [7:24:06<5:52:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8603/15423 [7:24:06<5:52:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8603/15423 [7:24:06<5:52:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8604/15423 [7:24:08<5:52:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8604/15423 [7:24:08<5:52:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8605/15423 [7:24:09<5:51:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8605/15423 [7:24:09<5:51:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8606/15423 [7:24:13<5:51:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8606/15423 [7:24:13<5:51:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8607/15423 [7:24:17<5:51:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8607/15423 [7:24:17<5:51:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8608/15423 [7:24:33<5:51:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8608/15423 [7:24:33<5:51:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8609/15423 [7:24:37<5:51:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8609/15423 [7:24:37<5:51:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8610/15423 [7:24:41<5:51:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8610/15423 [7:24:41<5:51:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8611/15423 [7:24:44<5:51:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8611/15423 [7:24:44<5:51:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8612/15423 [7:24:48<5:51:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8612/15423 [7:24:48<5:51:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8613/15423 [7:24:51<5:51:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8613/15423 [7:24:51<5:51:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8614/15423 [7:24:55<5:51:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8614/15423 [7:24:55<5:51:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8615/15423 [7:24:59<5:51:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8615/15423 [7:24:59<5:51:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8616/15423 [7:25:02<5:51:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8616/15423 [7:25:02<5:51:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8617/15423 [7:25:05<5:51:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8617/15423 [7:25:05<5:51:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8618/15423 [7:25:08<5:51:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8618/15423 [7:25:08<5:51:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8619/15423 [7:25:09<5:51:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8619/15423 [7:25:09<5:51:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8620/15423 [7:25:11<5:51:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8620/15423 [7:25:11<5:51:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8621/15423 [7:25:15<5:51:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8621/15423 [7:25:15<5:51:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8622/15423 [7:25:20<5:51:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8622/15423 [7:25:20<5:51:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8623/15423 [7:25:23<5:51:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8623/15423 [7:25:23<5:51:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8624/15423 [7:25:27<5:51:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8624/15423 [7:25:27<5:51:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8625/15423 [7:25:28<5:51:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8625/15423 [7:25:28<5:51:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8626/15423 [7:25:31<5:51:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8626/15423 [7:25:31<5:51:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8627/15423 [7:25:35<5:51:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8627/15423 [7:25:35<5:51:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8628/15423 [7:25:37<5:50:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8628/15423 [7:25:37<5:50:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8629/15423 [7:25:41<5:50:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8629/15423 [7:25:41<5:50:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8630/15423 [7:25:45<5:50:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8630/15423 [7:25:45<5:50:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8631/15423 [7:25:48<5:50:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8631/15423 [7:25:48<5:50:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8632/15423 [7:25:51<5:50:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8632/15423 [7:25:51<5:50:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8633/15423 [7:25:54<5:50:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8633/15423 [7:25:54<5:50:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8634/15423 [7:25:56<5:50:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8634/15423 [7:25:56<5:50:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8635/15423 [7:25:59<5:50:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8635/15423 [7:25:59<5:50:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8636/15423 [7:26:03<5:50:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8636/15423 [7:26:03<5:50:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8637/15423 [7:26:05<5:50:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8637/15423 [7:26:05<5:50:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8638/15423 [7:26:09<5:50:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8638/15423 [7:26:09<5:50:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8639/15423 [7:26:11<5:50:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8639/15423 [7:26:11<5:50:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8640/15423 [7:26:20<5:50:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8640/15423 [7:26:20<5:50:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8641/15423 [7:26:23<5:50:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8641/15423 [7:26:23<5:50:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8642/15423 [7:26:26<5:50:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8642/15423 [7:26:26<5:50:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8643/15423 [7:26:28<5:50:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8643/15423 [7:26:28<5:50:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8644/15423 [7:26:31<5:50:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8644/15423 [7:26:31<5:50:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8645/15423 [7:26:35<5:50:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8645/15423 [7:26:35<5:50:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8646/15423 [7:26:37<5:50:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8646/15423 [7:26:37<5:50:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8647/15423 [7:26:39<5:50:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8647/15423 [7:26:39<5:50:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8648/15423 [7:26:39<5:49:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8648/15423 [7:26:39<5:49:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8649/15423 [7:26:44<5:49:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8649/15423 [7:26:44<5:49:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8650/15423 [7:26:47<5:49:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8650/15423 [7:26:47<5:49:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8651/15423 [7:26:48<5:49:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8651/15423 [7:26:48<5:49:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8652/15423 [7:26:50<5:49:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8652/15423 [7:26:50<5:49:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8653/15423 [7:26:54<5:49:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8653/15423 [7:26:54<5:49:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8654/15423 [7:26:55<5:49:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8654/15423 [7:26:55<5:49:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8655/15423 [7:26:56<5:49:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8655/15423 [7:26:56<5:49:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8656/15423 [7:26:58<5:49:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8656/15423 [7:26:58<5:49:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8657/15423 [7:26:59<5:49:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8657/15423 [7:26:59<5:49:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8658/15423 [7:27:04<5:49:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8658/15423 [7:27:04<5:49:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8659/15423 [7:27:04<5:49:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8659/15423 [7:27:04<5:49:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8660/15423 [7:27:08<5:49:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8660/15423 [7:27:08<5:49:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8661/15423 [7:27:10<5:49:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8661/15423 [7:27:10<5:49:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8662/15423 [7:27:12<5:49:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8662/15423 [7:27:12<5:49:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8663/15423 [7:27:16<5:49:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8663/15423 [7:27:16<5:49:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8664/15423 [7:27:20<5:48:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8664/15423 [7:27:20<5:48:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8665/15423 [7:27:24<5:48:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8665/15423 [7:27:24<5:48:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8666/15423 [7:27:27<5:48:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8666/15423 [7:27:27<5:48:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8667/15423 [7:27:29<5:48:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8667/15423 [7:27:29<5:48:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8668/15423 [7:27:31<5:48:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8668/15423 [7:27:31<5:48:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8669/15423 [7:27:35<5:48:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8669/15423 [7:27:35<5:48:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8670/15423 [7:27:39<5:48:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8670/15423 [7:27:39<5:48:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8671/15423 [7:27:42<5:48:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8671/15423 [7:27:42<5:48:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8672/15423 [7:27:57<5:48:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8672/15423 [7:27:57<5:48:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8673/15423 [7:28:00<5:48:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8673/15423 [7:28:00<5:48:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8674/15423 [7:28:03<5:48:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8674/15423 [7:28:03<5:48:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8675/15423 [7:28:06<5:48:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8675/15423 [7:28:06<5:48:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8676/15423 [7:28:07<5:48:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8676/15423 [7:28:07<5:48:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8677/15423 [7:28:11<5:48:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8677/15423 [7:28:11<5:48:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8678/15423 [7:28:15<5:48:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8678/15423 [7:28:15<5:48:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8679/15423 [7:28:17<5:48:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8679/15423 [7:28:17<5:48:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8680/15423 [7:28:19<5:48:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8680/15423 [7:28:19<5:48:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8681/15423 [7:28:23<5:48:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8681/15423 [7:28:23<5:48:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8682/15423 [7:28:25<5:48:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8682/15423 [7:28:25<5:48:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8683/15423 [7:28:27<5:48:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8683/15423 [7:28:27<5:48:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8684/15423 [7:28:29<5:48:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8684/15423 [7:28:29<5:48:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8685/15423 [7:28:30<5:47:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8685/15423 [7:28:30<5:47:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8686/15423 [7:28:33<5:47:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8686/15423 [7:28:33<5:47:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8687/15423 [7:28:36<5:47:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8687/15423 [7:28:36<5:47:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8688/15423 [7:28:40<5:47:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8688/15423 [7:28:40<5:47:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8689/15423 [7:28:42<5:47:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8689/15423 [7:28:42<5:47:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8690/15423 [7:28:43<5:47:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8690/15423 [7:28:43<5:47:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8691/15423 [7:28:47<5:47:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8691/15423 [7:28:47<5:47:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8692/15423 [7:28:51<5:47:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8692/15423 [7:28:51<5:47:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8693/15423 [7:28:55<5:47:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8693/15423 [7:28:55<5:47:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8694/15423 [7:28:59<5:47:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8694/15423 [7:28:59<5:47:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8695/15423 [7:29:02<5:47:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8695/15423 [7:29:02<5:47:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8696/15423 [7:29:06<5:47:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8696/15423 [7:29:06<5:47:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8697/15423 [7:29:11<5:47:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8697/15423 [7:29:11<5:47:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8698/15423 [7:29:12<5:47:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8698/15423 [7:29:12<5:47:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8699/15423 [7:29:15<5:47:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8699/15423 [7:29:15<5:47:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8700/15423 [7:29:19<5:47:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8700/15423 [7:29:19<5:47:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8701/15423 [7:29:21<5:47:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8701/15423 [7:29:21<5:47:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8702/15423 [7:29:24<5:47:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8702/15423 [7:29:24<5:47:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8703/15423 [7:29:26<5:47:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8703/15423 [7:29:26<5:47:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8704/15423 [7:29:34<5:47:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8704/15423 [7:29:34<5:47:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8705/15423 [7:29:36<5:46:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8705/15423 [7:29:36<5:46:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8706/15423 [7:29:40<5:46:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8706/15423 [7:29:40<5:46:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8707/15423 [7:29:43<5:46:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8707/15423 [7:29:43<5:46:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8708/15423 [7:29:45<5:46:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8708/15423 [7:29:45<5:46:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8709/15423 [7:29:46<5:46:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8709/15423 [7:29:46<5:46:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8710/15423 [7:29:47<5:46:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8710/15423 [7:29:47<5:46:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8711/15423 [7:29:48<5:46:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8711/15423 [7:29:48<5:46:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8712/15423 [7:29:50<5:46:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8712/15423 [7:29:50<5:46:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  56%|▌| 8713/15423 [7:29:52<5:46:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  56%|▌| 8713/15423 [7:29:52<5:46:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8714/15423 [7:29:57<5:46:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8714/15423 [7:29:57<5:46:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8715/15423 [7:30:00<5:46:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8715/15423 [7:30:00<5:46:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8716/15423 [7:30:04<5:46:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8716/15423 [7:30:04<5:46:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8717/15423 [7:30:06<5:46:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8717/15423 [7:30:06<5:46:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8718/15423 [7:30:09<5:46:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8718/15423 [7:30:09<5:46:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8719/15423 [7:30:13<5:46:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8719/15423 [7:30:13<5:46:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8720/15423 [7:30:16<5:46:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8720/15423 [7:30:16<5:46:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8721/15423 [7:30:18<5:46:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8721/15423 [7:30:18<5:46:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8722/15423 [7:30:22<5:46:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8722/15423 [7:30:22<5:46:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8723/15423 [7:30:26<5:45:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8723/15423 [7:30:26<5:45:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8724/15423 [7:30:28<5:45:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8724/15423 [7:30:28<5:45:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8725/15423 [7:30:29<5:45:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8725/15423 [7:30:29<5:45:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8726/15423 [7:30:31<5:45:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8726/15423 [7:30:31<5:45:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8727/15423 [7:30:35<5:45:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8727/15423 [7:30:35<5:45:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8728/15423 [7:30:37<5:45:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8728/15423 [7:30:37<5:45:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8729/15423 [7:30:40<5:45:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8729/15423 [7:30:40<5:45:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8730/15423 [7:30:42<5:45:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8730/15423 [7:30:42<5:45:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8731/15423 [7:30:44<5:45:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8731/15423 [7:30:44<5:45:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8732/15423 [7:30:46<5:45:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8732/15423 [7:30:46<5:45:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8733/15423 [7:30:49<5:45:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8733/15423 [7:30:49<5:45:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8734/15423 [7:30:53<5:45:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8734/15423 [7:30:53<5:45:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8735/15423 [7:30:54<5:45:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8735/15423 [7:30:54<5:45:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8736/15423 [7:31:13<5:45:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8736/15423 [7:31:13<5:45:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8737/15423 [7:31:15<5:45:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8737/15423 [7:31:15<5:45:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8738/15423 [7:31:19<5:45:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8738/15423 [7:31:19<5:45:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8739/15423 [7:31:24<5:45:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8739/15423 [7:31:24<5:45:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8740/15423 [7:31:28<5:45:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8740/15423 [7:31:28<5:45:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8741/15423 [7:31:29<5:45:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8741/15423 [7:31:29<5:45:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8742/15423 [7:31:31<5:45:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8742/15423 [7:31:31<5:45:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8743/15423 [7:31:34<5:45:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8743/15423 [7:31:34<5:45:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8744/15423 [7:31:36<5:44:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8744/15423 [7:31:36<5:44:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8745/15423 [7:31:40<5:44:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8745/15423 [7:31:40<5:44:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8746/15423 [7:31:42<5:44:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8746/15423 [7:31:42<5:44:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8747/15423 [7:31:47<5:44:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8747/15423 [7:31:47<5:44:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8748/15423 [7:31:48<5:44:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8748/15423 [7:31:48<5:44:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8749/15423 [7:31:50<5:44:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8749/15423 [7:31:50<5:44:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8750/15423 [7:31:54<5:44:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8750/15423 [7:31:54<5:44:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8751/15423 [7:31:58<5:44:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8751/15423 [7:31:58<5:44:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8752/15423 [7:32:00<5:44:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8752/15423 [7:32:00<5:44:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8753/15423 [7:32:03<5:44:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8753/15423 [7:32:03<5:44:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8754/15423 [7:32:06<5:44:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8754/15423 [7:32:06<5:44:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8755/15423 [7:32:10<5:44:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8755/15423 [7:32:10<5:44:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8756/15423 [7:32:12<5:44:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8756/15423 [7:32:12<5:44:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8757/15423 [7:32:16<5:44:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8757/15423 [7:32:16<5:44:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8758/15423 [7:32:21<5:44:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8758/15423 [7:32:21<5:44:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8759/15423 [7:32:25<5:44:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8759/15423 [7:32:25<5:44:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8760/15423 [7:32:29<5:44:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8760/15423 [7:32:29<5:44:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8761/15423 [7:32:33<5:44:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8761/15423 [7:32:33<5:44:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8762/15423 [7:32:34<5:44:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8762/15423 [7:32:34<5:44:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8763/15423 [7:32:39<5:44:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8763/15423 [7:32:39<5:44:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8764/15423 [7:32:43<5:43:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8764/15423 [7:32:43<5:43:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8765/15423 [7:32:43<5:43:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8765/15423 [7:32:43<5:43:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8766/15423 [7:32:48<5:43:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8766/15423 [7:32:48<5:43:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8767/15423 [7:32:51<5:43:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8767/15423 [7:32:51<5:43:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8768/15423 [7:33:04<5:43:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8768/15423 [7:33:04<5:43:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8769/15423 [7:33:05<5:43:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8769/15423 [7:33:05<5:43:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8770/15423 [7:33:09<5:43:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8770/15423 [7:33:09<5:43:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8771/15423 [7:33:13<5:43:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8771/15423 [7:33:13<5:43:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8772/15423 [7:33:14<5:43:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8772/15423 [7:33:14<5:43:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8773/15423 [7:33:19<5:43:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8773/15423 [7:33:19<5:43:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8774/15423 [7:33:22<5:43:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8774/15423 [7:33:22<5:43:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8775/15423 [7:33:22<5:43:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8775/15423 [7:33:22<5:43:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8776/15423 [7:33:27<5:43:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8776/15423 [7:33:27<5:43:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8777/15423 [7:33:28<5:43:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8777/15423 [7:33:28<5:43:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8778/15423 [7:33:29<5:43:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8778/15423 [7:33:29<5:43:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8779/15423 [7:33:31<5:43:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8779/15423 [7:33:31<5:43:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8780/15423 [7:33:33<5:43:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8780/15423 [7:33:33<5:43:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8781/15423 [7:33:37<5:43:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8781/15423 [7:33:37<5:43:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8782/15423 [7:33:38<5:43:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8782/15423 [7:33:38<5:43:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8783/15423 [7:33:43<5:43:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8783/15423 [7:33:43<5:43:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8784/15423 [7:33:44<5:42:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8784/15423 [7:33:44<5:42:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8785/15423 [7:33:46<5:42:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8785/15423 [7:33:46<5:42:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8786/15423 [7:33:50<5:42:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8786/15423 [7:33:50<5:42:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8787/15423 [7:33:51<5:42:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8787/15423 [7:33:51<5:42:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8788/15423 [7:33:54<5:42:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8788/15423 [7:33:54<5:42:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8789/15423 [7:33:57<5:42:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8789/15423 [7:33:57<5:42:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8790/15423 [7:33:58<5:42:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8790/15423 [7:33:58<5:42:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8791/15423 [7:33:59<5:42:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8791/15423 [7:33:59<5:42:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8792/15423 [7:34:02<5:42:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8792/15423 [7:34:02<5:42:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8793/15423 [7:34:03<5:42:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8793/15423 [7:34:03<5:42:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8794/15423 [7:34:05<5:42:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8794/15423 [7:34:05<5:42:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8795/15423 [7:34:07<5:42:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8795/15423 [7:34:07<5:42:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8796/15423 [7:34:08<5:42:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8796/15423 [7:34:08<5:42:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8797/15423 [7:34:11<5:42:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8797/15423 [7:34:11<5:42:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8798/15423 [7:34:13<5:42:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8798/15423 [7:34:13<5:42:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8799/15423 [7:34:16<5:41:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8799/15423 [7:34:16<5:41:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8800/15423 [7:34:46<5:42:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8800/15423 [7:34:46<5:42:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8801/15423 [7:35:11<5:42:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8801/15423 [7:35:11<5:42:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8802/15423 [7:35:12<5:42:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8802/15423 [7:35:12<5:42:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8803/15423 [7:35:14<5:42:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8803/15423 [7:35:14<5:42:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8804/15423 [7:35:17<5:42:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8804/15423 [7:35:17<5:42:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8805/15423 [7:35:18<5:42:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8805/15423 [7:35:18<5:42:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8806/15423 [7:35:19<5:42:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8806/15423 [7:35:19<5:42:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8807/15423 [7:35:21<5:42:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8807/15423 [7:35:21<5:42:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8808/15423 [7:35:23<5:42:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8808/15423 [7:35:23<5:42:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8809/15423 [7:35:26<5:41:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8809/15423 [7:35:26<5:41:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8810/15423 [7:35:27<5:41:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8810/15423 [7:35:27<5:41:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8811/15423 [7:35:29<5:41:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8811/15423 [7:35:29<5:41:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8812/15423 [7:35:31<5:41:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8812/15423 [7:35:31<5:41:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8813/15423 [7:35:34<5:41:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8813/15423 [7:35:34<5:41:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8814/15423 [7:35:38<5:41:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8814/15423 [7:35:38<5:41:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8815/15423 [7:35:41<5:41:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8815/15423 [7:35:41<5:41:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8816/15423 [7:35:44<5:41:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8816/15423 [7:35:44<5:41:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8817/15423 [7:35:46<5:41:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8817/15423 [7:35:46<5:41:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8818/15423 [7:35:47<5:41:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8818/15423 [7:35:47<5:41:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8819/15423 [7:35:49<5:41:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8819/15423 [7:35:49<5:41:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8820/15423 [7:35:52<5:41:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8820/15423 [7:35:52<5:41:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8821/15423 [7:35:53<5:41:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8821/15423 [7:35:53<5:41:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8822/15423 [7:35:58<5:41:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8822/15423 [7:35:58<5:41:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8823/15423 [7:36:02<5:41:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8823/15423 [7:36:02<5:41:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8824/15423 [7:36:06<5:41:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8824/15423 [7:36:06<5:41:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8825/15423 [7:36:08<5:41:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8825/15423 [7:36:08<5:41:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8826/15423 [7:36:09<5:40:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8826/15423 [7:36:09<5:40:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8827/15423 [7:36:11<5:40:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8827/15423 [7:36:11<5:40:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8828/15423 [7:36:15<5:40:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8828/15423 [7:36:15<5:40:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8829/15423 [7:36:18<5:40:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8829/15423 [7:36:18<5:40:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8830/15423 [7:36:19<5:40:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8830/15423 [7:36:19<5:40:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8831/15423 [7:36:21<5:40:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8831/15423 [7:36:21<5:40:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8832/15423 [7:36:44<5:40:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8832/15423 [7:36:44<5:40:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8833/15423 [7:36:47<5:40:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8833/15423 [7:36:47<5:40:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8834/15423 [7:36:50<5:40:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8834/15423 [7:36:50<5:40:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8835/15423 [7:36:55<5:40:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8835/15423 [7:36:55<5:40:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8836/15423 [7:36:56<5:40:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8836/15423 [7:36:56<5:40:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8837/15423 [7:37:00<5:40:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8837/15423 [7:37:00<5:40:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8838/15423 [7:37:03<5:40:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8838/15423 [7:37:03<5:40:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8839/15423 [7:37:05<5:40:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8839/15423 [7:37:05<5:40:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8840/15423 [7:37:06<5:40:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8840/15423 [7:37:06<5:40:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8841/15423 [7:37:07<5:40:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8841/15423 [7:37:07<5:40:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8842/15423 [7:37:09<5:40:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8842/15423 [7:37:09<5:40:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8843/15423 [7:37:13<5:40:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8843/15423 [7:37:13<5:40:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8844/15423 [7:37:15<5:40:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8844/15423 [7:37:15<5:40:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8845/15423 [7:37:19<5:40:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8845/15423 [7:37:19<5:40:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8846/15423 [7:37:22<5:40:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8846/15423 [7:37:22<5:40:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8847/15423 [7:37:25<5:40:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8847/15423 [7:37:25<5:40:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8848/15423 [7:37:29<5:39:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8848/15423 [7:37:29<5:39:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8849/15423 [7:37:30<5:39:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8849/15423 [7:37:30<5:39:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8850/15423 [7:37:32<5:39:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8850/15423 [7:37:32<5:39:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8851/15423 [7:37:35<5:39:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8851/15423 [7:37:35<5:39:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8852/15423 [7:37:39<5:39:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8852/15423 [7:37:39<5:39:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8853/15423 [7:37:40<5:39:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8853/15423 [7:37:40<5:39:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8854/15423 [7:37:43<5:39:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8854/15423 [7:37:43<5:39:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8855/15423 [7:37:44<5:39:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8855/15423 [7:37:44<5:39:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8856/15423 [7:37:48<5:39:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8856/15423 [7:37:48<5:39:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8857/15423 [7:37:51<5:39:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8857/15423 [7:37:51<5:39:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8858/15423 [7:37:52<5:39:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8858/15423 [7:37:52<5:39:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8859/15423 [7:37:54<5:39:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8859/15423 [7:37:54<5:39:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8860/15423 [7:37:56<5:39:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8860/15423 [7:37:56<5:39:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8861/15423 [7:37:57<5:39:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8861/15423 [7:37:57<5:39:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8862/15423 [7:37:58<5:39:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8862/15423 [7:37:58<5:39:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8863/15423 [7:38:01<5:39:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8863/15423 [7:38:01<5:39:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8864/15423 [7:38:25<5:39:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8864/15423 [7:38:25<5:39:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8865/15423 [7:38:27<5:39:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8865/15423 [7:38:27<5:39:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8866/15423 [7:38:31<5:39:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8866/15423 [7:38:31<5:39:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8867/15423 [7:38:35<5:39:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8867/15423 [7:38:35<5:39:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  57%|▌| 8868/15423 [7:38:39<5:39:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  57%|▌| 8868/15423 [7:38:39<5:39:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8869/15423 [7:38:40<5:38:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8869/15423 [7:38:40<5:38:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8870/15423 [7:38:44<5:38:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8870/15423 [7:38:44<5:38:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8871/15423 [7:38:44<5:38:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8871/15423 [7:38:44<5:38:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8872/15423 [7:38:45<5:38:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8872/15423 [7:38:46<5:38:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8873/15423 [7:38:47<5:38:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8873/15423 [7:38:47<5:38:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8874/15423 [7:38:51<5:38:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8874/15423 [7:38:51<5:38:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8875/15423 [7:38:54<5:38:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8875/15423 [7:38:54<5:38:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8876/15423 [7:38:56<5:38:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8876/15423 [7:38:56<5:38:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8877/15423 [7:38:59<5:38:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8877/15423 [7:38:59<5:38:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8878/15423 [7:39:04<5:38:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8878/15423 [7:39:04<5:38:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8879/15423 [7:39:08<5:38:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8879/15423 [7:39:08<5:38:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8880/15423 [7:39:10<5:38:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8880/15423 [7:39:10<5:38:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8881/15423 [7:39:13<5:38:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8881/15423 [7:39:13<5:38:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8882/15423 [7:39:16<5:38:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8882/15423 [7:39:16<5:38:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8883/15423 [7:39:20<5:38:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8883/15423 [7:39:20<5:38:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8884/15423 [7:39:21<5:38:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8884/15423 [7:39:21<5:38:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8885/15423 [7:39:25<5:38:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8885/15423 [7:39:25<5:38:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8886/15423 [7:39:27<5:38:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8886/15423 [7:39:27<5:38:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8887/15423 [7:39:30<5:37:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8887/15423 [7:39:30<5:37:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8888/15423 [7:39:34<5:37:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8888/15423 [7:39:34<5:37:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8889/15423 [7:39:36<5:37:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8889/15423 [7:39:36<5:37:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8890/15423 [7:39:40<5:37:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8890/15423 [7:39:40<5:37:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8891/15423 [7:39:43<5:37:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8891/15423 [7:39:43<5:37:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8892/15423 [7:39:47<5:37:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8892/15423 [7:39:47<5:37:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8893/15423 [7:39:49<5:37:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8893/15423 [7:39:49<5:37:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8894/15423 [7:39:50<5:37:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8894/15423 [7:39:50<5:37:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8895/15423 [7:39:54<5:37:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8895/15423 [7:39:54<5:37:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8896/15423 [7:40:04<5:37:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8896/15423 [7:40:04<5:37:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8897/15423 [7:40:06<5:37:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8897/15423 [7:40:06<5:37:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8898/15423 [7:40:07<5:37:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8898/15423 [7:40:07<5:37:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8899/15423 [7:40:10<5:37:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8899/15423 [7:40:10<5:37:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8900/15423 [7:40:12<5:37:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8900/15423 [7:40:12<5:37:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8901/15423 [7:40:16<5:37:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8901/15423 [7:40:16<5:37:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8902/15423 [7:40:19<5:37:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8902/15423 [7:40:19<5:37:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8903/15423 [7:40:21<5:37:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8903/15423 [7:40:21<5:37:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8904/15423 [7:40:25<5:37:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8904/15423 [7:40:25<5:37:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8905/15423 [7:40:29<5:37:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8905/15423 [7:40:29<5:37:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8906/15423 [7:40:31<5:36:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8906/15423 [7:40:31<5:36:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8907/15423 [7:40:34<5:36:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8907/15423 [7:40:34<5:36:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8908/15423 [7:40:35<5:36:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8908/15423 [7:40:35<5:36:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8909/15423 [7:40:36<5:36:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8909/15423 [7:40:36<5:36:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8910/15423 [7:40:38<5:36:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8910/15423 [7:40:38<5:36:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8911/15423 [7:40:40<5:36:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8911/15423 [7:40:40<5:36:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8912/15423 [7:40:42<5:36:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8912/15423 [7:40:42<5:36:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8913/15423 [7:40:44<5:36:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8913/15423 [7:40:44<5:36:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8914/15423 [7:40:46<5:36:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8914/15423 [7:40:46<5:36:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8915/15423 [7:40:48<5:36:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8915/15423 [7:40:48<5:36:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8916/15423 [7:40:51<5:36:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8916/15423 [7:40:51<5:36:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8917/15423 [7:40:52<5:36:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8917/15423 [7:40:52<5:36:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8918/15423 [7:40:56<5:36:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8918/15423 [7:40:56<5:36:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8919/15423 [7:40:59<5:36:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8919/15423 [7:40:59<5:36:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8920/15423 [7:41:00<5:36:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8920/15423 [7:41:00<5:36:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8921/15423 [7:41:02<5:36:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8921/15423 [7:41:02<5:36:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8922/15423 [7:41:07<5:35:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8922/15423 [7:41:07<5:35:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8923/15423 [7:41:08<5:35:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8923/15423 [7:41:08<5:35:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8924/15423 [7:41:10<5:35:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8924/15423 [7:41:10<5:35:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8925/15423 [7:41:12<5:35:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8925/15423 [7:41:12<5:35:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8926/15423 [7:41:16<5:35:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8926/15423 [7:41:16<5:35:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8927/15423 [7:41:20<5:35:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8927/15423 [7:41:20<5:35:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8928/15423 [7:41:49<5:35:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8928/15423 [7:41:49<5:35:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8929/15423 [7:41:52<5:35:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8929/15423 [7:41:52<5:35:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8930/15423 [7:41:53<5:35:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8930/15423 [7:41:53<5:35:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8931/15423 [7:41:55<5:35:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8931/15423 [7:41:55<5:35:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8932/15423 [7:41:58<5:35:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8932/15423 [7:41:58<5:35:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8933/15423 [7:42:02<5:35:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8933/15423 [7:42:02<5:35:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8934/15423 [7:42:07<5:35:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8934/15423 [7:42:07<5:35:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8935/15423 [7:42:09<5:35:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8935/15423 [7:42:09<5:35:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8936/15423 [7:42:11<5:35:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8936/15423 [7:42:11<5:35:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8937/15423 [7:42:14<5:35:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8937/15423 [7:42:14<5:35:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8938/15423 [7:42:15<5:35:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8938/15423 [7:42:15<5:35:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8939/15423 [7:42:16<5:35:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8939/15423 [7:42:16<5:35:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8940/15423 [7:42:19<5:35:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8940/15423 [7:42:19<5:35:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8941/15423 [7:42:21<5:35:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8941/15423 [7:42:21<5:35:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8942/15423 [7:42:22<5:35:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8942/15423 [7:42:22<5:35:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8943/15423 [7:42:24<5:35:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8943/15423 [7:42:24<5:35:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8944/15423 [7:42:26<5:34:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8944/15423 [7:42:26<5:34:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8945/15423 [7:42:28<5:34:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8945/15423 [7:42:28<5:34:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8946/15423 [7:42:31<5:34:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8946/15423 [7:42:31<5:34:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8947/15423 [7:42:33<5:34:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8947/15423 [7:42:33<5:34:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8948/15423 [7:42:37<5:34:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8948/15423 [7:42:37<5:34:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8949/15423 [7:42:39<5:34:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8949/15423 [7:42:39<5:34:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8950/15423 [7:42:43<5:34:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8950/15423 [7:42:43<5:34:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8951/15423 [7:42:44<5:34:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8951/15423 [7:42:44<5:34:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8952/15423 [7:42:47<5:34:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8952/15423 [7:42:47<5:34:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8953/15423 [7:42:48<5:34:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8953/15423 [7:42:48<5:34:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8954/15423 [7:42:50<5:34:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8954/15423 [7:42:50<5:34:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8955/15423 [7:42:52<5:34:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8955/15423 [7:42:52<5:34:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8956/15423 [7:42:56<5:34:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8956/15423 [7:42:56<5:34:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8957/15423 [7:42:58<5:34:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8957/15423 [7:42:58<5:34:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8958/15423 [7:43:01<5:34:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8958/15423 [7:43:01<5:34:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8959/15423 [7:43:02<5:34:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8959/15423 [7:43:02<5:34:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8960/15423 [7:43:28<5:34:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8960/15423 [7:43:28<5:34:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8961/15423 [7:43:30<5:34:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8961/15423 [7:43:30<5:34:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8962/15423 [7:43:34<5:34:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8962/15423 [7:43:34<5:34:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8963/15423 [7:43:34<5:34:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8963/15423 [7:43:34<5:34:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8964/15423 [7:43:35<5:34:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8964/15423 [7:43:35<5:34:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8965/15423 [7:43:39<5:34:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8965/15423 [7:43:39<5:34:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8966/15423 [7:43:43<5:33:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8966/15423 [7:43:43<5:33:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8967/15423 [7:43:44<5:33:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8967/15423 [7:43:44<5:33:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8968/15423 [7:43:47<5:33:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8968/15423 [7:43:47<5:33:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8969/15423 [7:43:51<5:33:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8969/15423 [7:43:51<5:33:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8970/15423 [7:43:53<5:33:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8970/15423 [7:43:53<5:33:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8971/15423 [7:43:56<5:33:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8971/15423 [7:43:56<5:33:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8972/15423 [7:43:57<5:33:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8972/15423 [7:43:57<5:33:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8973/15423 [7:44:01<5:33:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8973/15423 [7:44:01<5:33:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8974/15423 [7:44:01<5:33:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8974/15423 [7:44:01<5:33:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8975/15423 [7:44:05<5:33:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8975/15423 [7:44:05<5:33:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8976/15423 [7:44:06<5:33:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8976/15423 [7:44:06<5:33:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8977/15423 [7:44:07<5:33:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8977/15423 [7:44:07<5:33:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8978/15423 [7:44:12<5:33:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8978/15423 [7:44:12<5:33:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8979/15423 [7:44:13<5:33:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8979/15423 [7:44:13<5:33:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8980/15423 [7:44:16<5:33:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8980/15423 [7:44:16<5:33:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8981/15423 [7:44:20<5:33:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8981/15423 [7:44:20<5:33:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8982/15423 [7:44:24<5:33:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8982/15423 [7:44:24<5:33:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8983/15423 [7:44:26<5:32:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8983/15423 [7:44:26<5:32:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8984/15423 [7:44:28<5:32:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8984/15423 [7:44:28<5:32:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8985/15423 [7:44:30<5:32:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8985/15423 [7:44:30<5:32:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8986/15423 [7:44:31<5:32:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8986/15423 [7:44:31<5:32:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8987/15423 [7:44:34<5:32:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8987/15423 [7:44:34<5:32:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8988/15423 [7:44:38<5:32:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8988/15423 [7:44:38<5:32:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8989/15423 [7:44:43<5:32:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8989/15423 [7:44:43<5:32:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8990/15423 [7:44:45<5:32:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8990/15423 [7:44:45<5:32:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8991/15423 [7:44:50<5:32:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8991/15423 [7:44:50<5:32:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8992/15423 [7:45:04<5:32:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8992/15423 [7:45:04<5:32:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8993/15423 [7:45:04<5:32:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8993/15423 [7:45:04<5:32:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8994/15423 [7:45:05<5:32:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8994/15423 [7:45:05<5:32:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8995/15423 [7:45:09<5:32:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8995/15423 [7:45:09<5:32:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8996/15423 [7:45:12<5:32:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8996/15423 [7:45:12<5:32:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8997/15423 [7:45:13<5:32:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8997/15423 [7:45:13<5:32:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8998/15423 [7:45:16<5:32:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8998/15423 [7:45:16<5:32:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 8999/15423 [7:45:18<5:32:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 8999/15423 [7:45:18<5:32:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9000/15423 [7:45:20<5:32:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9000/15423 [7:45:20<5:32:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9001/15423 [7:45:21<5:32:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9001/15423 [7:45:21<5:32:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9002/15423 [7:45:25<5:31:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9002/15423 [7:45:25<5:31:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9003/15423 [7:45:28<5:31:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9003/15423 [7:45:28<5:31:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9004/15423 [7:45:31<5:31:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9004/15423 [7:45:31<5:31:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9005/15423 [7:45:32<5:31:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9005/15423 [7:45:32<5:31:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9006/15423 [7:45:35<5:31:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9006/15423 [7:45:35<5:31:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9007/15423 [7:45:36<5:31:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9007/15423 [7:45:36<5:31:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9008/15423 [7:45:37<5:31:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9008/15423 [7:45:37<5:31:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9009/15423 [7:45:42<5:31:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9009/15423 [7:45:42<5:31:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9010/15423 [7:45:43<5:31:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9010/15423 [7:45:43<5:31:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9011/15423 [7:45:47<5:31:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9011/15423 [7:45:47<5:31:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9012/15423 [7:45:51<5:31:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9012/15423 [7:45:51<5:31:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9013/15423 [7:45:56<5:31:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9013/15423 [7:45:56<5:31:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9014/15423 [7:45:59<5:31:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9014/15423 [7:45:59<5:31:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9015/15423 [7:46:02<5:31:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9015/15423 [7:46:02<5:31:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9016/15423 [7:46:05<5:31:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9016/15423 [7:46:05<5:31:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9017/15423 [7:46:09<5:31:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9017/15423 [7:46:09<5:31:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9018/15423 [7:46:10<5:31:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9018/15423 [7:46:10<5:31:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9019/15423 [7:46:11<5:31:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9019/15423 [7:46:11<5:31:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9020/15423 [7:46:13<5:30:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9020/15423 [7:46:13<5:30:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9021/15423 [7:46:17<5:30:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9021/15423 [7:46:17<5:30:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  58%|▌| 9022/15423 [7:46:20<5:30:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  58%|▌| 9022/15423 [7:46:20<5:30:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9023/15423 [7:46:24<5:30:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9023/15423 [7:46:24<5:30:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9024/15423 [7:46:43<5:30:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9024/15423 [7:46:43<5:30:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9025/15423 [7:46:46<5:30:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9025/15423 [7:46:46<5:30:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9026/15423 [7:46:50<5:30:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9026/15423 [7:46:50<5:30:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9027/15423 [7:46:55<5:30:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9027/15423 [7:46:55<5:30:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9028/15423 [7:46:55<5:30:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9028/15423 [7:46:55<5:30:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9029/15423 [7:46:57<5:30:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9029/15423 [7:46:57<5:30:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9030/15423 [7:46:58<5:30:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9030/15423 [7:46:58<5:30:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9031/15423 [7:46:59<5:30:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9031/15423 [7:46:59<5:30:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9032/15423 [7:47:01<5:30:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9032/15423 [7:47:01<5:30:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9033/15423 [7:47:05<5:30:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9033/15423 [7:47:05<5:30:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9034/15423 [7:47:08<5:30:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9034/15423 [7:47:08<5:30:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9035/15423 [7:47:11<5:30:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9035/15423 [7:47:11<5:30:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9036/15423 [7:47:14<5:30:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9036/15423 [7:47:14<5:30:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9037/15423 [7:47:14<5:30:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9037/15423 [7:47:14<5:30:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9038/15423 [7:47:18<5:30:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9038/15423 [7:47:18<5:30:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9039/15423 [7:47:21<5:30:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9039/15423 [7:47:21<5:30:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9040/15423 [7:47:25<5:30:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9040/15423 [7:47:25<5:30:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9041/15423 [7:47:26<5:29:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9041/15423 [7:47:26<5:29:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9042/15423 [7:47:30<5:29:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9042/15423 [7:47:30<5:29:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9043/15423 [7:47:31<5:29:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9043/15423 [7:47:31<5:29:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9044/15423 [7:47:34<5:29:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9044/15423 [7:47:34<5:29:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9045/15423 [7:47:36<5:29:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9045/15423 [7:47:36<5:29:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9046/15423 [7:47:37<5:29:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9046/15423 [7:47:37<5:29:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9047/15423 [7:47:42<5:29:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9047/15423 [7:47:42<5:29:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9048/15423 [7:47:45<5:29:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9048/15423 [7:47:45<5:29:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9049/15423 [7:47:46<5:29:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9049/15423 [7:47:46<5:29:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9050/15423 [7:47:48<5:29:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9050/15423 [7:47:48<5:29:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9051/15423 [7:47:51<5:29:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9051/15423 [7:47:51<5:29:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9052/15423 [7:47:55<5:29:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9052/15423 [7:47:55<5:29:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9053/15423 [7:47:57<5:29:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9053/15423 [7:47:57<5:29:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9054/15423 [7:47:59<5:29:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9054/15423 [7:47:59<5:29:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9055/15423 [7:48:02<5:29:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9055/15423 [7:48:02<5:29:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9056/15423 [7:48:19<5:29:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9056/15423 [7:48:19<5:29:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9057/15423 [7:48:20<5:29:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9057/15423 [7:48:20<5:29:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9058/15423 [7:48:21<5:29:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9058/15423 [7:48:21<5:29:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9059/15423 [7:48:24<5:29:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9059/15423 [7:48:24<5:29:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9060/15423 [7:48:26<5:28:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9060/15423 [7:48:26<5:28:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9061/15423 [7:48:29<5:28:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9061/15423 [7:48:29<5:28:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9062/15423 [7:48:31<5:28:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9062/15423 [7:48:31<5:28:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9063/15423 [7:48:34<5:28:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9063/15423 [7:48:34<5:28:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9064/15423 [7:48:39<5:28:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9064/15423 [7:48:39<5:28:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9065/15423 [7:48:42<5:28:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9065/15423 [7:48:42<5:28:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9066/15423 [7:48:46<5:28:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9066/15423 [7:48:46<5:28:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9067/15423 [7:48:49<5:28:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9067/15423 [7:48:49<5:28:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9068/15423 [7:48:51<5:28:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9068/15423 [7:48:51<5:28:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9069/15423 [7:48:52<5:28:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9069/15423 [7:48:52<5:28:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9070/15423 [7:48:54<5:28:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9070/15423 [7:48:54<5:28:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9071/15423 [7:48:56<5:28:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9071/15423 [7:48:56<5:28:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9072/15423 [7:48:56<5:28:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9072/15423 [7:48:56<5:28:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9073/15423 [7:49:01<5:28:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9073/15423 [7:49:01<5:28:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9074/15423 [7:49:05<5:28:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9074/15423 [7:49:05<5:28:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9075/15423 [7:49:07<5:28:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9075/15423 [7:49:07<5:28:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9076/15423 [7:49:09<5:28:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9076/15423 [7:49:09<5:28:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9077/15423 [7:49:12<5:28:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9077/15423 [7:49:12<5:28:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9078/15423 [7:49:16<5:27:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9078/15423 [7:49:16<5:27:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9079/15423 [7:49:19<5:27:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9079/15423 [7:49:19<5:27:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9080/15423 [7:49:20<5:27:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9080/15423 [7:49:20<5:27:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9081/15423 [7:49:23<5:27:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9081/15423 [7:49:23<5:27:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9082/15423 [7:49:25<5:27:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9082/15423 [7:49:25<5:27:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9083/15423 [7:49:27<5:27:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9083/15423 [7:49:27<5:27:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9084/15423 [7:49:27<5:27:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9084/15423 [7:49:27<5:27:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9085/15423 [7:49:31<5:27:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9085/15423 [7:49:31<5:27:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9086/15423 [7:49:33<5:27:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9086/15423 [7:49:33<5:27:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9087/15423 [7:49:35<5:27:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9087/15423 [7:49:35<5:27:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9088/15423 [7:49:59<5:27:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9088/15423 [7:49:59<5:27:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9089/15423 [7:50:03<5:27:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9089/15423 [7:50:03<5:27:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9090/15423 [7:50:04<5:27:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9090/15423 [7:50:04<5:27:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9091/15423 [7:50:07<5:27:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9091/15423 [7:50:07<5:27:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9092/15423 [7:50:08<5:27:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9092/15423 [7:50:08<5:27:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9093/15423 [7:50:10<5:27:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9093/15423 [7:50:10<5:27:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9094/15423 [7:50:11<5:27:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9094/15423 [7:50:11<5:27:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9095/15423 [7:50:14<5:27:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9095/15423 [7:50:14<5:27:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9096/15423 [7:50:19<5:27:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9096/15423 [7:50:19<5:27:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9097/15423 [7:50:23<5:27:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9097/15423 [7:50:23<5:27:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9098/15423 [7:50:27<5:27:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9098/15423 [7:50:27<5:27:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9099/15423 [7:50:29<5:27:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9099/15423 [7:50:29<5:27:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9100/15423 [7:50:31<5:26:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9100/15423 [7:50:31<5:26:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9101/15423 [7:50:32<5:26:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9101/15423 [7:50:32<5:26:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9102/15423 [7:50:34<5:26:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9102/15423 [7:50:34<5:26:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9103/15423 [7:50:36<5:26:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9103/15423 [7:50:36<5:26:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9104/15423 [7:50:40<5:26:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9104/15423 [7:50:40<5:26:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9105/15423 [7:50:42<5:26:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9105/15423 [7:50:42<5:26:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9106/15423 [7:50:44<5:26:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9106/15423 [7:50:44<5:26:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9107/15423 [7:50:48<5:26:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9107/15423 [7:50:48<5:26:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9108/15423 [7:50:49<5:26:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9108/15423 [7:50:49<5:26:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9109/15423 [7:50:51<5:26:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9109/15423 [7:50:51<5:26:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9110/15423 [7:50:52<5:26:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9110/15423 [7:50:52<5:26:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9111/15423 [7:50:54<5:26:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9111/15423 [7:50:54<5:26:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9112/15423 [7:50:55<5:26:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9112/15423 [7:50:55<5:26:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9113/15423 [7:50:57<5:26:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9113/15423 [7:50:57<5:26:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9114/15423 [7:50:58<5:26:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9114/15423 [7:50:58<5:26:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9115/15423 [7:50:59<5:25:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9115/15423 [7:50:59<5:25:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9116/15423 [7:51:03<5:25:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9116/15423 [7:51:03<5:25:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9117/15423 [7:51:04<5:25:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9117/15423 [7:51:04<5:25:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9118/15423 [7:51:05<5:25:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9118/15423 [7:51:05<5:25:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9119/15423 [7:51:07<5:25:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9119/15423 [7:51:07<5:25:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9120/15423 [7:51:28<5:25:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9120/15423 [7:51:28<5:25:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9121/15423 [7:51:29<5:25:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9121/15423 [7:51:29<5:25:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9122/15423 [7:51:30<5:25:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9122/15423 [7:51:30<5:25:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9123/15423 [7:51:34<5:25:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9123/15423 [7:51:34<5:25:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9124/15423 [7:51:37<5:25:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9124/15423 [7:51:37<5:25:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9125/15423 [7:51:41<5:25:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9125/15423 [7:51:41<5:25:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9126/15423 [7:51:44<5:25:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9126/15423 [7:51:44<5:25:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9127/15423 [7:51:47<5:25:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9127/15423 [7:51:47<5:25:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9128/15423 [7:51:48<5:25:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9128/15423 [7:51:48<5:25:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9129/15423 [7:51:53<5:25:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9129/15423 [7:51:53<5:25:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9130/15423 [7:51:54<5:25:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9130/15423 [7:51:54<5:25:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9131/15423 [7:51:57<5:25:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9131/15423 [7:51:57<5:25:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9132/15423 [7:51:59<5:25:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9132/15423 [7:51:59<5:25:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9133/15423 [7:52:00<5:25:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9133/15423 [7:52:00<5:25:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9134/15423 [7:52:00<5:24:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9134/15423 [7:52:00<5:24:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9135/15423 [7:52:01<5:24:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9135/15423 [7:52:01<5:24:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9136/15423 [7:52:02<5:24:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9136/15423 [7:52:02<5:24:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9137/15423 [7:52:05<5:24:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9137/15423 [7:52:05<5:24:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9138/15423 [7:52:06<5:24:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9138/15423 [7:52:06<5:24:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9139/15423 [7:52:10<5:24:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9139/15423 [7:52:10<5:24:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9140/15423 [7:52:14<5:24:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9140/15423 [7:52:14<5:24:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9141/15423 [7:52:16<5:24:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9141/15423 [7:52:16<5:24:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9142/15423 [7:52:16<5:24:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9142/15423 [7:52:16<5:24:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9143/15423 [7:52:19<5:24:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9143/15423 [7:52:19<5:24:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9144/15423 [7:52:23<5:24:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9144/15423 [7:52:23<5:24:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9145/15423 [7:52:23<5:24:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9145/15423 [7:52:23<5:24:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9146/15423 [7:52:27<5:24:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9146/15423 [7:52:27<5:24:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9147/15423 [7:52:30<5:24:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9147/15423 [7:52:30<5:24:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9148/15423 [7:52:34<5:24:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9148/15423 [7:52:34<5:24:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9149/15423 [7:52:37<5:24:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9149/15423 [7:52:37<5:24:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9150/15423 [7:52:39<5:24:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9150/15423 [7:52:39<5:24:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9151/15423 [7:52:43<5:23:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9151/15423 [7:52:43<5:23:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9152/15423 [7:53:02<5:24:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9152/15423 [7:53:02<5:24:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9153/15423 [7:53:03<5:24:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9153/15423 [7:53:03<5:24:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9154/15423 [7:53:07<5:24:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9154/15423 [7:53:07<5:24:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9155/15423 [7:53:11<5:23:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9155/15423 [7:53:11<5:23:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9156/15423 [7:53:13<5:23:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9156/15423 [7:53:13<5:23:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9157/15423 [7:53:18<5:23:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9157/15423 [7:53:18<5:23:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9158/15423 [7:53:21<5:23:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9158/15423 [7:53:21<5:23:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9159/15423 [7:53:22<5:23:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9159/15423 [7:53:22<5:23:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9160/15423 [7:53:24<5:23:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9160/15423 [7:53:24<5:23:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9161/15423 [7:53:25<5:23:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9161/15423 [7:53:25<5:23:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9162/15423 [7:53:26<5:23:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9162/15423 [7:53:26<5:23:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9163/15423 [7:53:28<5:23:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9163/15423 [7:53:28<5:23:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9164/15423 [7:53:30<5:23:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9164/15423 [7:53:30<5:23:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9165/15423 [7:53:32<5:23:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9165/15423 [7:53:32<5:23:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9166/15423 [7:53:32<5:23:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9166/15423 [7:53:32<5:23:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9167/15423 [7:53:35<5:23:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9167/15423 [7:53:35<5:23:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9168/15423 [7:53:40<5:23:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9168/15423 [7:53:40<5:23:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9169/15423 [7:53:44<5:23:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9169/15423 [7:53:44<5:23:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9170/15423 [7:53:46<5:23:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9170/15423 [7:53:46<5:23:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9171/15423 [7:53:49<5:23:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9171/15423 [7:53:49<5:23:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9172/15423 [7:53:52<5:22:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9172/15423 [7:53:52<5:22:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9173/15423 [7:53:54<5:22:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9173/15423 [7:53:54<5:22:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9174/15423 [7:53:58<5:22:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9174/15423 [7:53:58<5:22:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9175/15423 [7:53:59<5:22:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9175/15423 [7:53:59<5:22:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  59%|▌| 9176/15423 [7:54:01<5:22:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  59%|▌| 9176/15423 [7:54:01<5:22:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9177/15423 [7:54:02<5:22:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9177/15423 [7:54:02<5:22:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9178/15423 [7:54:03<5:22:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9178/15423 [7:54:03<5:22:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9179/15423 [7:54:03<5:22:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9179/15423 [7:54:03<5:22:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9180/15423 [7:54:08<5:22:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9180/15423 [7:54:08<5:22:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9181/15423 [7:54:10<5:22:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9181/15423 [7:54:10<5:22:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9182/15423 [7:54:14<5:22:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9182/15423 [7:54:14<5:22:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9183/15423 [7:54:18<5:22:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9183/15423 [7:54:18<5:22:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9184/15423 [7:54:42<5:22:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9184/15423 [7:54:42<5:22:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9185/15423 [7:54:46<5:22:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9185/15423 [7:54:46<5:22:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9186/15423 [7:54:49<5:22:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9186/15423 [7:54:49<5:22:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9187/15423 [7:54:50<5:22:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9187/15423 [7:54:50<5:22:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9188/15423 [7:54:54<5:22:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9188/15423 [7:54:54<5:22:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9189/15423 [7:54:56<5:22:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9189/15423 [7:54:56<5:22:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9190/15423 [7:54:59<5:22:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9190/15423 [7:54:59<5:22:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9191/15423 [7:54:59<5:22:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9191/15423 [7:54:59<5:22:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9192/15423 [7:55:01<5:22:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9192/15423 [7:55:01<5:22:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9193/15423 [7:55:05<5:21:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9193/15423 [7:55:05<5:21:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9194/15423 [7:55:06<5:21:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9194/15423 [7:55:06<5:21:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9195/15423 [7:55:08<5:21:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9195/15423 [7:55:08<5:21:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9196/15423 [7:55:12<5:21:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9196/15423 [7:55:12<5:21:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9197/15423 [7:55:13<5:21:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9197/15423 [7:55:13<5:21:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9198/15423 [7:55:15<5:21:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9198/15423 [7:55:15<5:21:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9199/15423 [7:55:18<5:21:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9199/15423 [7:55:18<5:21:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9200/15423 [7:55:20<5:21:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9200/15423 [7:55:20<5:21:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9201/15423 [7:55:22<5:21:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9201/15423 [7:55:22<5:21:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9202/15423 [7:55:26<5:21:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9202/15423 [7:55:26<5:21:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9203/15423 [7:55:29<5:21:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9203/15423 [7:55:29<5:21:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9204/15423 [7:55:30<5:21:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9204/15423 [7:55:30<5:21:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9205/15423 [7:55:33<5:21:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9205/15423 [7:55:33<5:21:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9206/15423 [7:55:35<5:21:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9206/15423 [7:55:35<5:21:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9207/15423 [7:55:39<5:21:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9207/15423 [7:55:39<5:21:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9208/15423 [7:55:43<5:21:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9208/15423 [7:55:43<5:21:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9209/15423 [7:55:44<5:21:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9209/15423 [7:55:44<5:21:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9210/15423 [7:55:48<5:20:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9210/15423 [7:55:48<5:20:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9211/15423 [7:55:53<5:20:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9211/15423 [7:55:53<5:20:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9212/15423 [7:55:54<5:20:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9212/15423 [7:55:54<5:20:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9213/15423 [7:55:56<5:20:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9213/15423 [7:55:56<5:20:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9214/15423 [7:56:00<5:20:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9214/15423 [7:56:00<5:20:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9215/15423 [7:56:01<5:20:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9215/15423 [7:56:01<5:20:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9216/15423 [7:56:22<5:20:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9216/15423 [7:56:22<5:20:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9217/15423 [7:56:26<5:20:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9217/15423 [7:56:26<5:20:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9218/15423 [7:56:30<5:20:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9218/15423 [7:56:30<5:20:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9219/15423 [7:56:31<5:20:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9219/15423 [7:56:31<5:20:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9220/15423 [7:56:32<5:20:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9220/15423 [7:56:32<5:20:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9221/15423 [7:56:36<5:20:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9221/15423 [7:56:36<5:20:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9222/15423 [7:56:37<5:20:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9222/15423 [7:56:37<5:20:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9223/15423 [7:56:39<5:20:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9223/15423 [7:56:39<5:20:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9224/15423 [7:56:40<5:20:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9224/15423 [7:56:40<5:20:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9225/15423 [7:56:43<5:20:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9225/15423 [7:56:43<5:20:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9226/15423 [7:56:44<5:20:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9226/15423 [7:56:44<5:20:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9227/15423 [7:56:47<5:20:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9227/15423 [7:56:47<5:20:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9228/15423 [7:56:49<5:20:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9228/15423 [7:56:49<5:20:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9229/15423 [7:56:52<5:20:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9229/15423 [7:56:52<5:20:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9230/15423 [7:56:54<5:19:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9230/15423 [7:56:54<5:19:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9231/15423 [7:56:57<5:19:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9231/15423 [7:56:57<5:19:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9232/15423 [7:57:00<5:19:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9232/15423 [7:57:00<5:19:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9233/15423 [7:57:02<5:19:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9233/15423 [7:57:02<5:19:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9234/15423 [7:57:06<5:19:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9234/15423 [7:57:06<5:19:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9235/15423 [7:57:08<5:19:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9235/15423 [7:57:08<5:19:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9236/15423 [7:57:11<5:19:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9236/15423 [7:57:11<5:19:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9237/15423 [7:57:13<5:19:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9237/15423 [7:57:13<5:19:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9238/15423 [7:57:16<5:19:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9238/15423 [7:57:16<5:19:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9239/15423 [7:57:18<5:19:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9239/15423 [7:57:18<5:19:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9240/15423 [7:57:20<5:19:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9240/15423 [7:57:20<5:19:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9241/15423 [7:57:23<5:19:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9241/15423 [7:57:23<5:19:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9242/15423 [7:57:27<5:19:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9242/15423 [7:57:27<5:19:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9243/15423 [7:57:28<5:19:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9243/15423 [7:57:28<5:19:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9244/15423 [7:57:31<5:19:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9244/15423 [7:57:31<5:19:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9245/15423 [7:57:33<5:19:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9245/15423 [7:57:33<5:19:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9246/15423 [7:57:36<5:19:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9246/15423 [7:57:36<5:19:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9247/15423 [7:57:41<5:19:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9247/15423 [7:57:41<5:19:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9248/15423 [7:58:10<5:19:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9248/15423 [7:58:10<5:19:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9249/15423 [7:58:12<5:19:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9249/15423 [7:58:12<5:19:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9250/15423 [7:58:13<5:19:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9250/15423 [7:58:13<5:19:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9251/15423 [7:58:17<5:19:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9251/15423 [7:58:17<5:19:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9252/15423 [7:58:19<5:19:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9252/15423 [7:58:19<5:19:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9253/15423 [7:58:22<5:18:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9253/15423 [7:58:22<5:18:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9254/15423 [7:58:24<5:18:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9254/15423 [7:58:24<5:18:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9255/15423 [7:58:26<5:18:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9255/15423 [7:58:26<5:18:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9256/15423 [7:58:28<5:18:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9256/15423 [7:58:28<5:18:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9257/15423 [7:58:31<5:18:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9257/15423 [7:58:31<5:18:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9258/15423 [7:58:33<5:18:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9258/15423 [7:58:33<5:18:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9259/15423 [7:58:33<5:18:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9259/15423 [7:58:33<5:18:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9260/15423 [7:58:35<5:18:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9260/15423 [7:58:35<5:18:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9261/15423 [7:58:38<5:18:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9261/15423 [7:58:38<5:18:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9262/15423 [7:58:39<5:18:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9262/15423 [7:58:39<5:18:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9263/15423 [7:58:43<5:18:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9263/15423 [7:58:43<5:18:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9264/15423 [7:58:48<5:18:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9264/15423 [7:58:48<5:18:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9265/15423 [7:58:49<5:18:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9265/15423 [7:58:49<5:18:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9266/15423 [7:58:54<5:18:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9266/15423 [7:58:54<5:18:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9267/15423 [7:58:55<5:18:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9267/15423 [7:58:55<5:18:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9268/15423 [7:58:57<5:18:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9268/15423 [7:58:57<5:18:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9269/15423 [7:59:01<5:18:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9269/15423 [7:59:01<5:18:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9270/15423 [7:59:02<5:17:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9270/15423 [7:59:02<5:17:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9271/15423 [7:59:05<5:17:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9271/15423 [7:59:05<5:17:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9272/15423 [7:59:06<5:17:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9272/15423 [7:59:06<5:17:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9273/15423 [7:59:08<5:17:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9273/15423 [7:59:08<5:17:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9274/15423 [7:59:11<5:17:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9274/15423 [7:59:11<5:17:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9275/15423 [7:59:13<5:17:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9275/15423 [7:59:13<5:17:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9276/15423 [7:59:17<5:17:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9276/15423 [7:59:17<5:17:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9277/15423 [7:59:19<5:17:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9277/15423 [7:59:19<5:17:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9278/15423 [7:59:19<5:17:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9278/15423 [7:59:19<5:17:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9279/15423 [7:59:22<5:17:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9279/15423 [7:59:22<5:17:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9280/15423 [7:59:48<5:17:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9280/15423 [7:59:48<5:17:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9281/15423 [7:59:51<5:17:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9281/15423 [7:59:51<5:17:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9282/15423 [7:59:55<5:17:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9282/15423 [7:59:55<5:17:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9283/15423 [7:59:58<5:17:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9283/15423 [7:59:58<5:17:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9284/15423 [8:00:00<5:17:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9284/15423 [8:00:00<5:17:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9285/15423 [8:00:03<5:17:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9285/15423 [8:00:03<5:17:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9286/15423 [8:00:05<5:17:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9286/15423 [8:00:05<5:17:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9287/15423 [8:00:09<5:17:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9287/15423 [8:00:09<5:17:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9288/15423 [8:00:11<5:17:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9288/15423 [8:00:11<5:17:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9289/15423 [8:00:14<5:17:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9289/15423 [8:00:14<5:17:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9290/15423 [8:00:17<5:17:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9290/15423 [8:00:17<5:17:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9291/15423 [8:00:17<5:16:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9291/15423 [8:00:17<5:16:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9292/15423 [8:00:19<5:16:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9292/15423 [8:00:19<5:16:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9293/15423 [8:00:22<5:16:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9293/15423 [8:00:22<5:16:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9294/15423 [8:00:26<5:16:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9294/15423 [8:00:26<5:16:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9295/15423 [8:00:29<5:16:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9295/15423 [8:00:29<5:16:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9296/15423 [8:00:30<5:16:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9296/15423 [8:00:30<5:16:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9297/15423 [8:00:35<5:16:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9297/15423 [8:00:35<5:16:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9298/15423 [8:00:36<5:16:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9298/15423 [8:00:36<5:16:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9299/15423 [8:00:37<5:16:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9299/15423 [8:00:37<5:16:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9300/15423 [8:00:38<5:16:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9300/15423 [8:00:38<5:16:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9301/15423 [8:00:43<5:16:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9301/15423 [8:00:43<5:16:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9302/15423 [8:00:45<5:16:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9302/15423 [8:00:45<5:16:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9303/15423 [8:00:46<5:16:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9303/15423 [8:00:46<5:16:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9304/15423 [8:00:48<5:16:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9304/15423 [8:00:48<5:16:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9305/15423 [8:00:49<5:16:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9305/15423 [8:00:49<5:16:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9306/15423 [8:00:50<5:16:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9306/15423 [8:00:50<5:16:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9307/15423 [8:00:55<5:16:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9307/15423 [8:00:55<5:16:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9308/15423 [8:00:59<5:15:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9308/15423 [8:00:59<5:15:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9309/15423 [8:01:03<5:15:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9309/15423 [8:01:03<5:15:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9310/15423 [8:01:05<5:15:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9310/15423 [8:01:05<5:15:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9311/15423 [8:01:10<5:15:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9311/15423 [8:01:10<5:15:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9312/15423 [8:01:35<5:16:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9312/15423 [8:01:35<5:16:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9313/15423 [8:01:39<5:16:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9313/15423 [8:01:39<5:16:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9314/15423 [8:01:41<5:15:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9314/15423 [8:01:41<5:15:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9315/15423 [8:01:45<5:15:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9315/15423 [8:01:45<5:15:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9316/15423 [8:01:47<5:15:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9316/15423 [8:01:47<5:15:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9317/15423 [8:01:51<5:15:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9317/15423 [8:01:51<5:15:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9318/15423 [8:01:53<5:15:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9318/15423 [8:01:54<5:15:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9319/15423 [8:01:55<5:15:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9319/15423 [8:01:55<5:15:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9320/15423 [8:01:57<5:15:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9320/15423 [8:01:57<5:15:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9321/15423 [8:02:00<5:15:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9321/15423 [8:02:00<5:15:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9322/15423 [8:02:01<5:15:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9322/15423 [8:02:01<5:15:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9323/15423 [8:02:03<5:15:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9323/15423 [8:02:03<5:15:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9324/15423 [8:02:04<5:15:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9324/15423 [8:02:04<5:15:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9325/15423 [8:02:07<5:15:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9325/15423 [8:02:07<5:15:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9326/15423 [8:02:11<5:15:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9326/15423 [8:02:11<5:15:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9327/15423 [8:02:12<5:15:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9327/15423 [8:02:12<5:15:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9328/15423 [8:02:15<5:15:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9328/15423 [8:02:15<5:15:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9329/15423 [8:02:17<5:15:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9329/15423 [8:02:17<5:15:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  60%|▌| 9330/15423 [8:02:18<5:14:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  60%|▌| 9330/15423 [8:02:18<5:14:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9331/15423 [8:02:19<5:14:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9331/15423 [8:02:19<5:14:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9332/15423 [8:02:21<5:14:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9332/15423 [8:02:21<5:14:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9333/15423 [8:02:25<5:14:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9333/15423 [8:02:25<5:14:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9334/15423 [8:02:27<5:14:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9334/15423 [8:02:27<5:14:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9335/15423 [8:02:30<5:14:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9335/15423 [8:02:30<5:14:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9336/15423 [8:02:34<5:14:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9336/15423 [8:02:34<5:14:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9337/15423 [8:02:35<5:14:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9337/15423 [8:02:35<5:14:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9338/15423 [8:02:38<5:14:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9338/15423 [8:02:38<5:14:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9339/15423 [8:02:39<5:14:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9339/15423 [8:02:39<5:14:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9340/15423 [8:02:41<5:14:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9340/15423 [8:02:41<5:14:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9341/15423 [8:02:42<5:14:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9341/15423 [8:02:42<5:14:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9342/15423 [8:02:45<5:14:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9342/15423 [8:02:45<5:14:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9343/15423 [8:02:48<5:14:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9343/15423 [8:02:48<5:14:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9344/15423 [8:03:20<5:14:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9344/15423 [8:03:20<5:14:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9345/15423 [8:03:24<5:14:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9345/15423 [8:03:24<5:14:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9346/15423 [8:03:25<5:14:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9346/15423 [8:03:25<5:14:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9347/15423 [8:03:30<5:14:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9347/15423 [8:03:30<5:14:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9348/15423 [8:03:31<5:14:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9348/15423 [8:03:31<5:14:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9349/15423 [8:03:35<5:14:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9349/15423 [8:03:35<5:14:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9350/15423 [8:03:39<5:14:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9350/15423 [8:03:39<5:14:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9351/15423 [8:03:43<5:14:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9351/15423 [8:03:43<5:14:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9352/15423 [8:03:46<5:14:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9352/15423 [8:03:46<5:14:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9353/15423 [8:03:48<5:13:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9353/15423 [8:03:48<5:13:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9354/15423 [8:03:48<5:13:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9354/15423 [8:03:48<5:13:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9355/15423 [8:03:52<5:13:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9355/15423 [8:03:52<5:13:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9356/15423 [8:03:52<5:13:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9356/15423 [8:03:52<5:13:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9357/15423 [8:03:55<5:13:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9357/15423 [8:03:55<5:13:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9358/15423 [8:03:58<5:13:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9358/15423 [8:03:58<5:13:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9359/15423 [8:04:02<5:13:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9359/15423 [8:04:02<5:13:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9360/15423 [8:04:04<5:13:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9360/15423 [8:04:04<5:13:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9361/15423 [8:04:07<5:13:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9361/15423 [8:04:07<5:13:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9362/15423 [8:04:09<5:13:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9362/15423 [8:04:09<5:13:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9363/15423 [8:04:13<5:13:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9363/15423 [8:04:13<5:13:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9364/15423 [8:04:14<5:13:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9364/15423 [8:04:14<5:13:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9365/15423 [8:04:18<5:13:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9365/15423 [8:04:18<5:13:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9366/15423 [8:04:20<5:13:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9366/15423 [8:04:20<5:13:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9367/15423 [8:04:23<5:13:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9367/15423 [8:04:23<5:13:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9368/15423 [8:04:26<5:13:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9368/15423 [8:04:26<5:13:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9369/15423 [8:04:30<5:13:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9369/15423 [8:04:30<5:13:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9370/15423 [8:04:31<5:13:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9370/15423 [8:04:31<5:13:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9371/15423 [8:04:36<5:12:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9371/15423 [8:04:36<5:12:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9372/15423 [8:04:37<5:12:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9372/15423 [8:04:37<5:12:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9373/15423 [8:04:39<5:12:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9373/15423 [8:04:39<5:12:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9374/15423 [8:04:43<5:12:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9374/15423 [8:04:43<5:12:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9375/15423 [8:04:45<5:12:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9375/15423 [8:04:45<5:12:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9376/15423 [8:04:54<5:12:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9376/15423 [8:04:54<5:12:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9377/15423 [8:04:58<5:12:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9377/15423 [8:04:58<5:12:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9378/15423 [8:04:59<5:12:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9378/15423 [8:04:59<5:12:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9379/15423 [8:05:02<5:12:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9379/15423 [8:05:02<5:12:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9380/15423 [8:05:04<5:12:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9380/15423 [8:05:04<5:12:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9381/15423 [8:05:08<5:12:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9381/15423 [8:05:08<5:12:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9382/15423 [8:05:09<5:12:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9382/15423 [8:05:09<5:12:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9383/15423 [8:05:12<5:12:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9383/15423 [8:05:12<5:12:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9384/15423 [8:05:16<5:12:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9384/15423 [8:05:16<5:12:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9385/15423 [8:05:19<5:12:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9385/15423 [8:05:19<5:12:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9386/15423 [8:05:20<5:12:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9386/15423 [8:05:20<5:12:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9387/15423 [8:05:21<5:12:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9387/15423 [8:05:21<5:12:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9388/15423 [8:05:23<5:12:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9388/15423 [8:05:23<5:12:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9389/15423 [8:05:25<5:11:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9389/15423 [8:05:25<5:11:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9390/15423 [8:05:29<5:11:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9390/15423 [8:05:29<5:11:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9391/15423 [8:05:31<5:11:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9391/15423 [8:05:31<5:11:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9392/15423 [8:05:32<5:11:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9392/15423 [8:05:32<5:11:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9393/15423 [8:05:34<5:11:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9393/15423 [8:05:34<5:11:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9394/15423 [8:05:37<5:11:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9394/15423 [8:05:37<5:11:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9395/15423 [8:05:39<5:11:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9395/15423 [8:05:39<5:11:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9396/15423 [8:05:43<5:11:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9396/15423 [8:05:43<5:11:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9397/15423 [8:05:44<5:11:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9397/15423 [8:05:44<5:11:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9398/15423 [8:05:45<5:11:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9398/15423 [8:05:45<5:11:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9399/15423 [8:05:46<5:11:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9399/15423 [8:05:46<5:11:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9400/15423 [8:05:50<5:11:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9400/15423 [8:05:50<5:11:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9401/15423 [8:05:54<5:11:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9401/15423 [8:05:54<5:11:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9402/15423 [8:05:56<5:11:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9402/15423 [8:05:56<5:11:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9403/15423 [8:05:59<5:11:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9403/15423 [8:05:59<5:11:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9404/15423 [8:06:03<5:11:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9404/15423 [8:06:03<5:11:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9405/15423 [8:06:05<5:11:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9405/15423 [8:06:05<5:11:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9406/15423 [8:06:07<5:10:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9406/15423 [8:06:07<5:10:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9407/15423 [8:06:11<5:10:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9407/15423 [8:06:11<5:10:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9408/15423 [8:06:32<5:11:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9408/15423 [8:06:32<5:11:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9409/15423 [8:06:35<5:11:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9409/15423 [8:06:35<5:11:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9410/15423 [8:06:38<5:10:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9410/15423 [8:06:38<5:10:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9411/15423 [8:06:40<5:10:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9411/15423 [8:06:40<5:10:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9412/15423 [8:06:45<5:10:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9412/15423 [8:06:45<5:10:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9413/15423 [8:06:47<5:10:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9413/15423 [8:06:47<5:10:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9414/15423 [8:06:50<5:10:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9414/15423 [8:06:50<5:10:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9415/15423 [8:06:54<5:10:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9415/15423 [8:06:54<5:10:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9416/15423 [8:06:56<5:10:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9416/15423 [8:06:56<5:10:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9417/15423 [8:07:00<5:10:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9417/15423 [8:07:00<5:10:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9418/15423 [8:07:03<5:10:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9418/15423 [8:07:03<5:10:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9419/15423 [8:07:07<5:10:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9419/15423 [8:07:07<5:10:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9420/15423 [8:07:11<5:10:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9420/15423 [8:07:11<5:10:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9421/15423 [8:07:14<5:10:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9421/15423 [8:07:14<5:10:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9422/15423 [8:07:15<5:10:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9422/15423 [8:07:15<5:10:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9423/15423 [8:07:19<5:10:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9423/15423 [8:07:19<5:10:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9424/15423 [8:07:23<5:10:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9424/15423 [8:07:23<5:10:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9425/15423 [8:07:26<5:10:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9425/15423 [8:07:26<5:10:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9426/15423 [8:07:28<5:10:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9426/15423 [8:07:28<5:10:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9427/15423 [8:07:31<5:10:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9427/15423 [8:07:31<5:10:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9428/15423 [8:07:35<5:10:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9428/15423 [8:07:35<5:10:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9429/15423 [8:07:38<5:09:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9429/15423 [8:07:38<5:09:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9430/15423 [8:07:39<5:09:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9430/15423 [8:07:39<5:09:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9431/15423 [8:07:42<5:09:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9431/15423 [8:07:42<5:09:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9432/15423 [8:07:45<5:09:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9432/15423 [8:07:45<5:09:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9433/15423 [8:07:46<5:09:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9433/15423 [8:07:46<5:09:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9434/15423 [8:07:47<5:09:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9434/15423 [8:07:47<5:09:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9435/15423 [8:07:48<5:09:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9435/15423 [8:07:48<5:09:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9436/15423 [8:07:50<5:09:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9436/15423 [8:07:50<5:09:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9437/15423 [8:07:51<5:09:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9437/15423 [8:07:51<5:09:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9438/15423 [8:07:54<5:09:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9438/15423 [8:07:54<5:09:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9439/15423 [8:07:58<5:09:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9439/15423 [8:07:58<5:09:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9440/15423 [8:08:13<5:09:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9440/15423 [8:08:13<5:09:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9441/15423 [8:08:15<5:09:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9441/15423 [8:08:15<5:09:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9442/15423 [8:08:17<5:09:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9442/15423 [8:08:17<5:09:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9443/15423 [8:08:19<5:09:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9443/15423 [8:08:19<5:09:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9444/15423 [8:08:23<5:09:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9444/15423 [8:08:23<5:09:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9445/15423 [8:08:25<5:09:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9445/15423 [8:08:25<5:09:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9446/15423 [8:08:30<5:09:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9446/15423 [8:08:30<5:09:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9447/15423 [8:08:33<5:09:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9447/15423 [8:08:33<5:09:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9448/15423 [8:08:34<5:08:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9448/15423 [8:08:34<5:08:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9449/15423 [8:08:35<5:08:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9449/15423 [8:08:35<5:08:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9450/15423 [8:08:38<5:08:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9450/15423 [8:08:38<5:08:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9451/15423 [8:08:40<5:08:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9451/15423 [8:08:40<5:08:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9452/15423 [8:08:43<5:08:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9452/15423 [8:08:43<5:08:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9453/15423 [8:08:45<5:08:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9453/15423 [8:08:45<5:08:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9454/15423 [8:08:50<5:08:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9454/15423 [8:08:50<5:08:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9455/15423 [8:08:52<5:08:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9455/15423 [8:08:52<5:08:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9456/15423 [8:08:54<5:08:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9456/15423 [8:08:54<5:08:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9457/15423 [8:08:57<5:08:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9457/15423 [8:08:57<5:08:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9458/15423 [8:09:00<5:08:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9458/15423 [8:09:00<5:08:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9459/15423 [8:09:02<5:08:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9459/15423 [8:09:02<5:08:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9460/15423 [8:09:05<5:08:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9460/15423 [8:09:05<5:08:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9461/15423 [8:09:09<5:08:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9461/15423 [8:09:09<5:08:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9462/15423 [8:09:11<5:08:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9462/15423 [8:09:11<5:08:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9463/15423 [8:09:12<5:08:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9463/15423 [8:09:12<5:08:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9464/15423 [8:09:15<5:08:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9464/15423 [8:09:15<5:08:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9465/15423 [8:09:18<5:08:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9465/15423 [8:09:18<5:08:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9466/15423 [8:09:20<5:07:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9466/15423 [8:09:20<5:07:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9467/15423 [8:09:25<5:07:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9467/15423 [8:09:25<5:07:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9468/15423 [8:09:26<5:07:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9468/15423 [8:09:26<5:07:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9469/15423 [8:09:28<5:07:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9469/15423 [8:09:28<5:07:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9470/15423 [8:09:30<5:07:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9470/15423 [8:09:30<5:07:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9471/15423 [8:09:32<5:07:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9471/15423 [8:09:32<5:07:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9472/15423 [8:09:53<5:07:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9472/15423 [8:09:53<5:07:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9473/15423 [8:09:55<5:07:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9473/15423 [8:09:55<5:07:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9474/15423 [8:09:58<5:07:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9474/15423 [8:09:58<5:07:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9475/15423 [8:10:02<5:07:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9475/15423 [8:10:02<5:07:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9476/15423 [8:10:06<5:07:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9476/15423 [8:10:06<5:07:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9477/15423 [8:10:07<5:07:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9477/15423 [8:10:07<5:07:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9478/15423 [8:10:11<5:07:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9478/15423 [8:10:11<5:07:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9479/15423 [8:10:13<5:07:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9479/15423 [8:10:13<5:07:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9480/15423 [8:10:17<5:07:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9480/15423 [8:10:17<5:07:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9481/15423 [8:10:19<5:07:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9481/15423 [8:10:19<5:07:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9482/15423 [8:10:21<5:07:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9482/15423 [8:10:21<5:07:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9483/15423 [8:10:23<5:07:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9483/15423 [8:10:23<5:07:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9484/15423 [8:10:25<5:07:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9484/15423 [8:10:25<5:07:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  61%|▌| 9485/15423 [8:10:30<5:07:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  61%|▌| 9485/15423 [8:10:30<5:07:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9486/15423 [8:10:30<5:06:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9486/15423 [8:10:30<5:06:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9487/15423 [8:10:34<5:06:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9487/15423 [8:10:34<5:06:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9488/15423 [8:10:38<5:06:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9488/15423 [8:10:38<5:06:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9489/15423 [8:10:40<5:06:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9489/15423 [8:10:40<5:06:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9490/15423 [8:10:43<5:06:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9490/15423 [8:10:43<5:06:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9491/15423 [8:10:47<5:06:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9491/15423 [8:10:47<5:06:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9492/15423 [8:10:52<5:06:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9492/15423 [8:10:52<5:06:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9493/15423 [8:10:52<5:06:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9493/15423 [8:10:52<5:06:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9494/15423 [8:10:57<5:06:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9494/15423 [8:10:57<5:06:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9495/15423 [8:11:00<5:06:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9495/15423 [8:11:00<5:06:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9496/15423 [8:11:02<5:06:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9496/15423 [8:11:02<5:06:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9497/15423 [8:11:04<5:06:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9497/15423 [8:11:04<5:06:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9498/15423 [8:11:09<5:06:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9498/15423 [8:11:09<5:06:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9499/15423 [8:11:13<5:06:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9499/15423 [8:11:13<5:06:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9500/15423 [8:11:15<5:06:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9500/15423 [8:11:15<5:06:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9501/15423 [8:11:17<5:06:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9501/15423 [8:11:17<5:06:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9502/15423 [8:11:20<5:06:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9502/15423 [8:11:20<5:06:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9503/15423 [8:11:22<5:06:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9503/15423 [8:11:22<5:06:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9504/15423 [8:11:33<5:06:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9504/15423 [8:11:33<5:06:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9505/15423 [8:11:37<5:06:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9505/15423 [8:11:37<5:06:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9506/15423 [8:11:39<5:06:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9506/15423 [8:11:39<5:06:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9507/15423 [8:11:43<5:05:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9507/15423 [8:11:43<5:05:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9508/15423 [8:11:44<5:05:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9508/15423 [8:11:44<5:05:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9509/15423 [8:11:46<5:05:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9509/15423 [8:11:46<5:05:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9510/15423 [8:11:48<5:05:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9510/15423 [8:11:48<5:05:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9511/15423 [8:11:51<5:05:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9511/15423 [8:11:51<5:05:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9512/15423 [8:11:52<5:05:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9512/15423 [8:11:52<5:05:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9513/15423 [8:11:53<5:05:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9513/15423 [8:11:53<5:05:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9514/15423 [8:11:55<5:05:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9514/15423 [8:11:55<5:05:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9515/15423 [8:11:57<5:05:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9515/15423 [8:11:57<5:05:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9516/15423 [8:11:58<5:05:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9516/15423 [8:11:58<5:05:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9517/15423 [8:12:01<5:05:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9517/15423 [8:12:01<5:05:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9518/15423 [8:12:03<5:05:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9518/15423 [8:12:03<5:05:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9519/15423 [8:12:06<5:05:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9519/15423 [8:12:06<5:05:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9520/15423 [8:12:11<5:05:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9520/15423 [8:12:11<5:05:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9521/15423 [8:12:15<5:05:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9521/15423 [8:12:15<5:05:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9522/15423 [8:12:17<5:05:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9522/15423 [8:12:17<5:05:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9523/15423 [8:12:19<5:05:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9523/15423 [8:12:19<5:05:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9524/15423 [8:12:22<5:04:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9524/15423 [8:12:22<5:04:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9525/15423 [8:12:25<5:04:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9525/15423 [8:12:25<5:04:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9526/15423 [8:12:27<5:04:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9526/15423 [8:12:27<5:04:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9527/15423 [8:12:31<5:04:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9527/15423 [8:12:31<5:04:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9528/15423 [8:12:33<5:04:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9528/15423 [8:12:33<5:04:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9529/15423 [8:12:35<5:04:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9529/15423 [8:12:35<5:04:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9530/15423 [8:12:37<5:04:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9530/15423 [8:12:37<5:04:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9531/15423 [8:12:40<5:04:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9531/15423 [8:12:40<5:04:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9532/15423 [8:12:43<5:04:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9532/15423 [8:12:43<5:04:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9533/15423 [8:12:47<5:04:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9533/15423 [8:12:47<5:04:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9534/15423 [8:12:50<5:04:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9534/15423 [8:12:50<5:04:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9535/15423 [8:12:51<5:04:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9535/15423 [8:12:51<5:04:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9536/15423 [8:13:13<5:04:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9536/15423 [8:13:13<5:04:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9537/15423 [8:13:16<5:04:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9537/15423 [8:13:16<5:04:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9538/15423 [8:13:20<5:04:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9538/15423 [8:13:20<5:04:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9539/15423 [8:13:24<5:04:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9539/15423 [8:13:24<5:04:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9540/15423 [8:13:28<5:04:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9540/15423 [8:13:28<5:04:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9541/15423 [8:13:32<5:04:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9541/15423 [8:13:32<5:04:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9542/15423 [8:13:35<5:04:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9542/15423 [8:13:35<5:04:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9543/15423 [8:13:37<5:04:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9543/15423 [8:13:37<5:04:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9544/15423 [8:13:38<5:04:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9544/15423 [8:13:38<5:04:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9545/15423 [8:13:42<5:04:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9545/15423 [8:13:42<5:04:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9546/15423 [8:13:45<5:03:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9546/15423 [8:13:45<5:03:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9547/15423 [8:13:46<5:03:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9547/15423 [8:13:46<5:03:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9548/15423 [8:13:49<5:03:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9548/15423 [8:13:49<5:03:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9549/15423 [8:13:52<5:03:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9549/15423 [8:13:52<5:03:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9550/15423 [8:13:55<5:03:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9550/15423 [8:13:55<5:03:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9551/15423 [8:13:57<5:03:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9551/15423 [8:13:57<5:03:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9552/15423 [8:14:00<5:03:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9552/15423 [8:14:00<5:03:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9553/15423 [8:14:05<5:03:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9553/15423 [8:14:05<5:03:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9554/15423 [8:14:09<5:03:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9554/15423 [8:14:09<5:03:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9555/15423 [8:14:10<5:03:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9555/15423 [8:14:10<5:03:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9556/15423 [8:14:12<5:03:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9556/15423 [8:14:12<5:03:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9557/15423 [8:14:15<5:03:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9557/15423 [8:14:15<5:03:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9558/15423 [8:14:15<5:03:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9558/15423 [8:14:15<5:03:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9559/15423 [8:14:17<5:03:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9559/15423 [8:14:17<5:03:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9560/15423 [8:14:20<5:03:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9560/15423 [8:14:20<5:03:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9561/15423 [8:14:22<5:03:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9561/15423 [8:14:22<5:03:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9562/15423 [8:14:23<5:03:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9562/15423 [8:14:23<5:03:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9563/15423 [8:14:27<5:02:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9563/15423 [8:14:27<5:02:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9564/15423 [8:14:29<5:02:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9564/15423 [8:14:29<5:02:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9565/15423 [8:14:33<5:02:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9565/15423 [8:14:33<5:02:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9566/15423 [8:14:35<5:02:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9566/15423 [8:14:35<5:02:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9567/15423 [8:14:37<5:02:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9567/15423 [8:14:37<5:02:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9568/15423 [8:14:55<5:02:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9568/15423 [8:14:55<5:02:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9569/15423 [8:15:00<5:02:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9569/15423 [8:15:00<5:02:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9570/15423 [8:15:02<5:02:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9570/15423 [8:15:02<5:02:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9571/15423 [8:15:04<5:02:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9571/15423 [8:15:04<5:02:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9572/15423 [8:15:06<5:02:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9572/15423 [8:15:06<5:02:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9573/15423 [8:15:08<5:02:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9573/15423 [8:15:08<5:02:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9574/15423 [8:15:12<5:02:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9574/15423 [8:15:12<5:02:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9575/15423 [8:15:16<5:02:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9575/15423 [8:15:16<5:02:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9576/15423 [8:15:20<5:02:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9576/15423 [8:15:20<5:02:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9577/15423 [8:15:22<5:02:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9577/15423 [8:15:22<5:02:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9578/15423 [8:15:25<5:02:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9578/15423 [8:15:25<5:02:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9579/15423 [8:15:29<5:02:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9579/15423 [8:15:29<5:02:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9580/15423 [8:15:30<5:02:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9580/15423 [8:15:30<5:02:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9581/15423 [8:15:33<5:02:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9581/15423 [8:15:33<5:02:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9582/15423 [8:15:37<5:02:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9582/15423 [8:15:37<5:02:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9583/15423 [8:15:38<5:02:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9583/15423 [8:15:38<5:02:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9584/15423 [8:15:42<5:02:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9584/15423 [8:15:42<5:02:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9585/15423 [8:15:44<5:01:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9585/15423 [8:15:44<5:01:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9586/15423 [8:15:48<5:01:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9586/15423 [8:15:48<5:01:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9587/15423 [8:15:52<5:01:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9587/15423 [8:15:52<5:01:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9588/15423 [8:15:54<5:01:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9588/15423 [8:15:54<5:01:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9589/15423 [8:15:55<5:01:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9589/15423 [8:15:55<5:01:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9590/15423 [8:15:56<5:01:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9590/15423 [8:15:56<5:01:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9591/15423 [8:15:58<5:01:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9591/15423 [8:15:58<5:01:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9592/15423 [8:16:00<5:01:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9592/15423 [8:16:00<5:01:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9593/15423 [8:16:03<5:01:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9593/15423 [8:16:03<5:01:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9594/15423 [8:16:05<5:01:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9594/15423 [8:16:05<5:01:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9595/15423 [8:16:06<5:01:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9595/15423 [8:16:06<5:01:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9596/15423 [8:16:08<5:01:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9596/15423 [8:16:08<5:01:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9597/15423 [8:16:11<5:01:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9597/15423 [8:16:11<5:01:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9598/15423 [8:16:13<5:01:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9598/15423 [8:16:13<5:01:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9599/15423 [8:16:15<5:01:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9599/15423 [8:16:15<5:01:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9600/15423 [8:16:27<5:01:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9600/15423 [8:16:27<5:01:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9601/15423 [8:16:53<5:01:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9601/15423 [8:16:53<5:01:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9602/15423 [8:16:56<5:01:15,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9602/15423 [8:16:56<5:01:15,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9603/15423 [8:17:00<5:01:12,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9603/15423 [8:17:00<5:01:12,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9604/15423 [8:17:01<5:01:08,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9604/15423 [8:17:01<5:01:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9605/15423 [8:17:04<5:01:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9605/15423 [8:17:04<5:01:05,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9606/15423 [8:17:08<5:01:02,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9606/15423 [8:17:08<5:01:02,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9607/15423 [8:17:12<5:01:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9607/15423 [8:17:12<5:01:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9608/15423 [8:17:17<5:00:58,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9608/15423 [8:17:17<5:00:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9609/15423 [8:17:18<5:00:54,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9609/15423 [8:17:18<5:00:54,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9610/15423 [8:17:20<5:00:50,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9610/15423 [8:17:20<5:00:50,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9611/15423 [8:17:24<5:00:47,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9611/15423 [8:17:24<5:00:47,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9612/15423 [8:17:26<5:00:44,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9612/15423 [8:17:26<5:00:44,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9613/15423 [8:17:30<5:00:41,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9613/15423 [8:17:30<5:00:41,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9614/15423 [8:17:34<5:00:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9614/15423 [8:17:34<5:00:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9615/15423 [8:17:35<5:00:34,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9615/15423 [8:17:35<5:00:34,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9616/15423 [8:17:38<5:00:31,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9616/15423 [8:17:38<5:00:31,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9617/15423 [8:17:40<5:00:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9617/15423 [8:17:40<5:00:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9618/15423 [8:17:42<5:00:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9618/15423 [8:17:42<5:00:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9619/15423 [8:17:46<5:00:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9619/15423 [8:17:46<5:00:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9620/15423 [8:17:51<5:00:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9620/15423 [8:17:51<5:00:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9621/15423 [8:17:54<5:00:16,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9621/15423 [8:17:54<5:00:16,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9622/15423 [8:17:58<5:00:13,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9622/15423 [8:17:58<5:00:13,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9623/15423 [8:18:00<5:00:09,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9623/15423 [8:18:00<5:00:09,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9624/15423 [8:18:02<5:00:05,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9624/15423 [8:18:02<5:00:06,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9625/15423 [8:18:04<5:00:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9625/15423 [8:18:04<5:00:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9626/15423 [8:18:08<4:59:59,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9626/15423 [8:18:08<4:59:59,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9627/15423 [8:18:12<4:59:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9627/15423 [8:18:12<4:59:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9628/15423 [8:18:14<4:59:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9628/15423 [8:18:14<4:59:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9629/15423 [8:18:17<4:59:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9629/15423 [8:18:17<4:59:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9630/15423 [8:18:19<4:59:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9630/15423 [8:18:19<4:59:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9631/15423 [8:18:20<4:59:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9631/15423 [8:18:20<4:59:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9632/15423 [8:18:28<4:59:41,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9632/15423 [8:18:28<4:59:41,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9633/15423 [8:18:29<4:59:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9633/15423 [8:18:29<4:59:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9634/15423 [8:18:31<4:59:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9634/15423 [8:18:31<4:59:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9635/15423 [8:18:35<4:59:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9635/15423 [8:18:35<4:59:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9636/15423 [8:18:39<4:59:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9636/15423 [8:18:39<4:59:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9637/15423 [8:18:42<4:59:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9637/15423 [8:18:42<4:59:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9638/15423 [8:18:45<4:59:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9638/15423 [8:18:45<4:59:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  62%|▌| 9639/15423 [8:18:47<4:59:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  62%|▌| 9639/15423 [8:18:47<4:59:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9640/15423 [8:18:50<4:59:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9640/15423 [8:18:50<4:59:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9641/15423 [8:18:53<4:59:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9641/15423 [8:18:53<4:59:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9642/15423 [8:18:56<4:59:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9642/15423 [8:18:56<4:59:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9643/15423 [8:19:00<4:59:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9643/15423 [8:19:00<4:59:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9644/15423 [8:19:00<4:59:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9644/15423 [8:19:00<4:59:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9645/15423 [8:19:03<4:58:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9645/15423 [8:19:03<4:58:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9646/15423 [8:19:07<4:58:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9646/15423 [8:19:07<4:58:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9647/15423 [8:19:08<4:58:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9647/15423 [8:19:08<4:58:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9648/15423 [8:19:13<4:58:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9648/15423 [8:19:13<4:58:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9649/15423 [8:19:16<4:58:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9649/15423 [8:19:16<4:58:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9650/15423 [8:19:19<4:58:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9650/15423 [8:19:19<4:58:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9651/15423 [8:19:21<4:58:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9651/15423 [8:19:21<4:58:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9652/15423 [8:19:25<4:58:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9652/15423 [8:19:25<4:58:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9653/15423 [8:19:26<4:58:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9653/15423 [8:19:26<4:58:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9654/15423 [8:19:30<4:58:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9654/15423 [8:19:30<4:58:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9655/15423 [8:19:33<4:58:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9655/15423 [8:19:33<4:58:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9656/15423 [8:19:36<4:58:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9656/15423 [8:19:36<4:58:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9657/15423 [8:19:38<4:58:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9657/15423 [8:19:38<4:58:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9658/15423 [8:19:42<4:58:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9658/15423 [8:19:42<4:58:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9659/15423 [8:19:46<4:58:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9659/15423 [8:19:46<4:58:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9660/15423 [8:19:47<4:58:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9660/15423 [8:19:47<4:58:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9661/15423 [8:19:48<4:58:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9661/15423 [8:19:48<4:58:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9662/15423 [8:19:52<4:58:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9662/15423 [8:19:52<4:58:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9663/15423 [8:19:54<4:57:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9663/15423 [8:19:54<4:57:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9664/15423 [8:20:09<4:58:03,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9664/15423 [8:20:09<4:58:03,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9665/15423 [8:20:11<4:57:59,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9665/15423 [8:20:11<4:57:59,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9666/15423 [8:20:15<4:57:56,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9666/15423 [8:20:15<4:57:56,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9667/15423 [8:20:18<4:57:53,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9667/15423 [8:20:18<4:57:53,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9668/15423 [8:20:21<4:57:50,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9668/15423 [8:20:21<4:57:50,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9669/15423 [8:20:24<4:57:47,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9669/15423 [8:20:24<4:57:47,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9670/15423 [8:20:25<4:57:43,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9670/15423 [8:20:25<4:57:43,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9671/15423 [8:20:29<4:57:40,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9671/15423 [8:20:29<4:57:40,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9672/15423 [8:20:32<4:57:37,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9672/15423 [8:20:32<4:57:37,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9673/15423 [8:20:36<4:57:34,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9673/15423 [8:20:36<4:57:34,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9674/15423 [8:20:38<4:57:31,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9674/15423 [8:20:38<4:57:31,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9675/15423 [8:20:42<4:57:28,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9675/15423 [8:20:42<4:57:28,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9676/15423 [8:20:46<4:57:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9676/15423 [8:20:46<4:57:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9677/15423 [8:20:50<4:57:23,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9677/15423 [8:20:50<4:57:23,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9678/15423 [8:20:51<4:57:19,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9678/15423 [8:20:51<4:57:19,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9679/15423 [8:20:54<4:57:15,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9679/15423 [8:20:54<4:57:15,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9680/15423 [8:20:58<4:57:13,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9680/15423 [8:20:58<4:57:13,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9681/15423 [8:20:59<4:57:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9681/15423 [8:20:59<4:57:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9682/15423 [8:21:01<4:57:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9682/15423 [8:21:01<4:57:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9683/15423 [8:21:02<4:57:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9683/15423 [8:21:02<4:57:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9684/15423 [8:21:05<4:56:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9684/15423 [8:21:05<4:56:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9685/15423 [8:21:08<4:56:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9685/15423 [8:21:08<4:56:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9686/15423 [8:21:13<4:56:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9686/15423 [8:21:13<4:56:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9687/15423 [8:21:17<4:56:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9687/15423 [8:21:17<4:56:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9688/15423 [8:21:21<4:56:47,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9688/15423 [8:21:21<4:56:47,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9689/15423 [8:21:24<4:56:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9689/15423 [8:21:24<4:56:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9690/15423 [8:21:27<4:56:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9690/15423 [8:21:27<4:56:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9691/15423 [8:21:29<4:56:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9691/15423 [8:21:29<4:56:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9692/15423 [8:21:32<4:56:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9692/15423 [8:21:32<4:56:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9693/15423 [8:21:36<4:56:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9693/15423 [8:21:36<4:56:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9694/15423 [8:21:40<4:56:28,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9694/15423 [8:21:40<4:56:28,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9695/15423 [8:21:43<4:56:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9695/15423 [8:21:43<4:56:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9696/15423 [8:21:51<4:56:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9696/15423 [8:21:51<4:56:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9697/15423 [8:21:55<4:56:22,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9697/15423 [8:21:55<4:56:22,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9698/15423 [8:21:57<4:56:19,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9698/15423 [8:21:57<4:56:19,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9699/15423 [8:22:01<4:56:16,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9699/15423 [8:22:01<4:56:16,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9700/15423 [8:22:04<4:56:13,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9700/15423 [8:22:04<4:56:13,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9701/15423 [8:22:08<4:56:10,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9701/15423 [8:22:08<4:56:10,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9702/15423 [8:22:08<4:56:06,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9702/15423 [8:22:08<4:56:06,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9703/15423 [8:22:11<4:56:02,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9703/15423 [8:22:11<4:56:02,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9704/15423 [8:22:11<4:55:58,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9704/15423 [8:22:11<4:55:58,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9705/15423 [8:22:15<4:55:55,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9705/15423 [8:22:15<4:55:55,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9706/15423 [8:22:19<4:55:52,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9706/15423 [8:22:19<4:55:52,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9707/15423 [8:22:22<4:55:49,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9707/15423 [8:22:22<4:55:49,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9708/15423 [8:22:23<4:55:45,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9708/15423 [8:22:23<4:55:45,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9709/15423 [8:22:27<4:55:42,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9709/15423 [8:22:27<4:55:42,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9710/15423 [8:22:30<4:55:39,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9710/15423 [8:22:30<4:55:39,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9711/15423 [8:22:34<4:55:36,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9711/15423 [8:22:34<4:55:36,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9712/15423 [8:22:34<4:55:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9712/15423 [8:22:34<4:55:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9713/15423 [8:22:39<4:55:29,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9713/15423 [8:22:39<4:55:29,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9714/15423 [8:22:40<4:55:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9714/15423 [8:22:40<4:55:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9715/15423 [8:22:41<4:55:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9715/15423 [8:22:41<4:55:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9716/15423 [8:22:43<4:55:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9716/15423 [8:22:43<4:55:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9717/15423 [8:22:45<4:55:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9717/15423 [8:22:45<4:55:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9718/15423 [8:22:49<4:55:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9718/15423 [8:22:49<4:55:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9719/15423 [8:22:53<4:55:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9719/15423 [8:22:53<4:55:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9720/15423 [8:22:56<4:55:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9720/15423 [8:22:56<4:55:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9721/15423 [8:23:00<4:55:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9721/15423 [8:23:00<4:55:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9722/15423 [8:23:02<4:54:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9722/15423 [8:23:02<4:54:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9723/15423 [8:23:03<4:54:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9723/15423 [8:23:03<4:54:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9724/15423 [8:23:04<4:54:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9724/15423 [8:23:04<4:54:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9725/15423 [8:23:08<4:54:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9725/15423 [8:23:08<4:54:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9726/15423 [8:23:09<4:54:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9726/15423 [8:23:09<4:54:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9727/15423 [8:23:12<4:54:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9727/15423 [8:23:12<4:54:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9728/15423 [8:23:32<4:54:47,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9728/15423 [8:23:32<4:54:47,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9729/15423 [8:23:33<4:54:42,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9729/15423 [8:23:33<4:54:42,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9730/15423 [8:23:36<4:54:39,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9730/15423 [8:23:36<4:54:39,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9731/15423 [8:23:40<4:54:37,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9731/15423 [8:23:40<4:54:37,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9732/15423 [8:23:44<4:54:34,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9732/15423 [8:23:44<4:54:34,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9733/15423 [8:23:46<4:54:30,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9733/15423 [8:23:46<4:54:30,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9734/15423 [8:23:48<4:54:27,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9734/15423 [8:23:48<4:54:27,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9735/15423 [8:23:52<4:54:24,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9735/15423 [8:23:52<4:54:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9736/15423 [8:23:56<4:54:21,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9736/15423 [8:23:56<4:54:21,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9737/15423 [8:23:59<4:54:18,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9737/15423 [8:23:59<4:54:18,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9738/15423 [8:23:59<4:54:13,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9738/15423 [8:23:59<4:54:13,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9739/15423 [8:24:03<4:54:11,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9739/15423 [8:24:03<4:54:11,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9740/15423 [8:24:04<4:54:07,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9740/15423 [8:24:04<4:54:07,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9741/15423 [8:24:08<4:54:04,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9741/15423 [8:24:08<4:54:04,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9742/15423 [8:24:12<4:54:01,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9742/15423 [8:24:12<4:54:01,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9743/15423 [8:24:14<4:53:57,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9743/15423 [8:24:14<4:53:57,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9744/15423 [8:24:18<4:53:55,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9744/15423 [8:24:18<4:53:55,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9745/15423 [8:24:20<4:53:51,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9745/15423 [8:24:20<4:53:51,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9746/15423 [8:24:23<4:53:48,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9746/15423 [8:24:23<4:53:48,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9747/15423 [8:24:23<4:53:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9747/15423 [8:24:23<4:53:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9748/15423 [8:24:26<4:53:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9748/15423 [8:24:26<4:53:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9749/15423 [8:24:31<4:53:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9749/15423 [8:24:31<4:53:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9750/15423 [8:24:35<4:53:35,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9750/15423 [8:24:35<4:53:35,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9751/15423 [8:24:39<4:53:33,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9751/15423 [8:24:39<4:53:33,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9752/15423 [8:24:44<4:53:30,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9752/15423 [8:24:44<4:53:30,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9753/15423 [8:24:48<4:53:28,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9753/15423 [8:24:48<4:53:28,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9754/15423 [8:24:50<4:53:24,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9754/15423 [8:24:50<4:53:24,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9755/15423 [8:24:51<4:53:20,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9755/15423 [8:24:51<4:53:20,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9756/15423 [8:24:55<4:53:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9756/15423 [8:24:55<4:53:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9757/15423 [8:24:56<4:53:13,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9757/15423 [8:24:56<4:53:13,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9758/15423 [8:25:00<4:53:11,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9758/15423 [8:25:00<4:53:11,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9759/15423 [8:25:04<4:53:08,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9759/15423 [8:25:04<4:53:08,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9760/15423 [8:25:11<4:53:07,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9760/15423 [8:25:11<4:53:07,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9761/15423 [8:25:14<4:53:04,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9761/15423 [8:25:14<4:53:04,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9762/15423 [8:25:16<4:53:00,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9762/15423 [8:25:16<4:53:00,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9763/15423 [8:25:19<4:52:57,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9763/15423 [8:25:19<4:52:57,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9764/15423 [8:25:20<4:52:52,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9764/15423 [8:25:20<4:52:52,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9765/15423 [8:25:22<4:52:49,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9765/15423 [8:25:22<4:52:49,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9766/15423 [8:25:26<4:52:46,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9766/15423 [8:25:26<4:52:46,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9767/15423 [8:25:29<4:52:43,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9767/15423 [8:25:29<4:52:43,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9768/15423 [8:25:33<4:52:41,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9768/15423 [8:25:33<4:52:41,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9769/15423 [8:25:36<4:52:38,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9769/15423 [8:25:36<4:52:38,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9770/15423 [8:25:38<4:52:34,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9770/15423 [8:25:38<4:52:34,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9771/15423 [8:25:41<4:52:30,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9771/15423 [8:25:41<4:52:30,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9772/15423 [8:25:42<4:52:26,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9772/15423 [8:25:42<4:52:26,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9773/15423 [8:25:46<4:52:23,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9773/15423 [8:25:46<4:52:23,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9774/15423 [8:25:49<4:52:20,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9774/15423 [8:25:49<4:52:20,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9775/15423 [8:25:51<4:52:17,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9775/15423 [8:25:51<4:52:17,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9776/15423 [8:25:56<4:52:14,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9776/15423 [8:25:56<4:52:14,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9777/15423 [8:25:57<4:52:10,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9777/15423 [8:25:57<4:52:10,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9778/15423 [8:25:59<4:52:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9778/15423 [8:25:59<4:52:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9779/15423 [8:26:00<4:52:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9779/15423 [8:26:00<4:52:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9780/15423 [8:26:05<4:52:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9780/15423 [8:26:05<4:52:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9781/15423 [8:26:05<4:51:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9781/15423 [8:26:05<4:51:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9782/15423 [8:26:07<4:51:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9782/15423 [8:26:07<4:51:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9783/15423 [8:26:10<4:51:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9783/15423 [8:26:10<4:51:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9784/15423 [8:26:13<4:51:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9784/15423 [8:26:13<4:51:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9785/15423 [8:26:16<4:51:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9785/15423 [8:26:16<4:51:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9786/15423 [8:26:19<4:51:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9786/15423 [8:26:19<4:51:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9787/15423 [8:26:22<4:51:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9787/15423 [8:26:22<4:51:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9788/15423 [8:26:26<4:51:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9788/15423 [8:26:26<4:51:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9789/15423 [8:26:30<4:51:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9789/15423 [8:26:30<4:51:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9790/15423 [8:26:33<4:51:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9790/15423 [8:26:33<4:51:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9791/15423 [8:26:37<4:51:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9791/15423 [8:26:37<4:51:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9792/15423 [8:26:46<4:51:25,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9792/15423 [8:26:46<4:51:25,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  63%|▋| 9793/15423 [8:26:49<4:51:22,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  63%|▋| 9793/15423 [8:26:49<4:51:22,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9794/15423 [8:26:52<4:51:19,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9794/15423 [8:26:52<4:51:19,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9795/15423 [8:26:54<4:51:15,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9795/15423 [8:26:54<4:51:15,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9796/15423 [8:26:56<4:51:12,  3.11s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9796/15423 [8:26:56<4:51:12,  3.11s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9797/15423 [8:26:57<4:51:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9797/15423 [8:26:57<4:51:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9798/15423 [8:26:59<4:51:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9798/15423 [8:26:59<4:51:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9799/15423 [8:27:00<4:50:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9799/15423 [8:27:00<4:50:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9800/15423 [8:27:03<4:50:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9800/15423 [8:27:03<4:50:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9801/15423 [8:27:07<4:50:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9801/15423 [8:27:07<4:50:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9802/15423 [8:27:09<4:50:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9802/15423 [8:27:09<4:50:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9803/15423 [8:27:11<4:50:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9803/15423 [8:27:11<4:50:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9804/15423 [8:27:12<4:50:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9804/15423 [8:27:12<4:50:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9805/15423 [8:27:16<4:50:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9805/15423 [8:27:16<4:50:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9806/15423 [8:27:21<4:50:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9806/15423 [8:27:21<4:50:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9807/15423 [8:27:25<4:50:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9807/15423 [8:27:25<4:50:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9808/15423 [8:27:26<4:50:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9808/15423 [8:27:26<4:50:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9809/15423 [8:27:27<4:50:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9809/15423 [8:27:27<4:50:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9810/15423 [8:27:30<4:50:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9810/15423 [8:27:30<4:50:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9811/15423 [8:27:33<4:50:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9811/15423 [8:27:33<4:50:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9812/15423 [8:27:36<4:50:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9812/15423 [8:27:36<4:50:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9813/15423 [8:27:39<4:50:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9813/15423 [8:27:39<4:50:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9814/15423 [8:27:44<4:50:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9814/15423 [8:27:44<4:50:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9815/15423 [8:27:46<4:50:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9815/15423 [8:27:46<4:50:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9816/15423 [8:27:48<4:50:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9816/15423 [8:27:48<4:50:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9817/15423 [8:27:51<4:50:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9817/15423 [8:27:51<4:50:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9818/15423 [8:27:55<4:49:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9818/15423 [8:27:55<4:49:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9819/15423 [8:27:59<4:49:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9819/15423 [8:27:59<4:49:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9820/15423 [8:28:01<4:49:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9820/15423 [8:28:01<4:49:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9821/15423 [8:28:03<4:49:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9821/15423 [8:28:03<4:49:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9822/15423 [8:28:04<4:49:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9822/15423 [8:28:04<4:49:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9823/15423 [8:28:09<4:49:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9823/15423 [8:28:09<4:49:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9824/15423 [8:28:22<4:49:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9824/15423 [8:28:22<4:49:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9825/15423 [8:28:23<4:49:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9825/15423 [8:28:23<4:49:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9826/15423 [8:28:26<4:49:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9826/15423 [8:28:26<4:49:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9827/15423 [8:28:28<4:49:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9827/15423 [8:28:28<4:49:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9828/15423 [8:28:30<4:49:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9828/15423 [8:28:30<4:49:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9829/15423 [8:28:32<4:49:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9829/15423 [8:28:32<4:49:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9830/15423 [8:28:34<4:49:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9830/15423 [8:28:34<4:49:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9831/15423 [8:28:36<4:49:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9831/15423 [8:28:36<4:49:17,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9832/15423 [8:28:37<4:49:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9832/15423 [8:28:37<4:49:14,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9833/15423 [8:28:41<4:49:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9833/15423 [8:28:41<4:49:11,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9834/15423 [8:28:45<4:49:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9834/15423 [8:28:45<4:49:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9835/15423 [8:28:46<4:49:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9835/15423 [8:28:46<4:49:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9836/15423 [8:28:48<4:49:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9836/15423 [8:28:48<4:49:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9837/15423 [8:28:51<4:48:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9837/15423 [8:28:51<4:48:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9838/15423 [8:28:55<4:48:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9838/15423 [8:28:55<4:48:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9839/15423 [8:28:59<4:48:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9839/15423 [8:28:59<4:48:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9840/15423 [8:29:01<4:48:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9840/15423 [8:29:01<4:48:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9841/15423 [8:29:02<4:48:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9841/15423 [8:29:02<4:48:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9842/15423 [8:29:07<4:48:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9842/15423 [8:29:07<4:48:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9843/15423 [8:29:08<4:48:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9843/15423 [8:29:08<4:48:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9844/15423 [8:29:12<4:48:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9844/15423 [8:29:12<4:48:35,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9845/15423 [8:29:14<4:48:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9845/15423 [8:29:14<4:48:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9846/15423 [8:29:16<4:48:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9846/15423 [8:29:16<4:48:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9847/15423 [8:29:19<4:48:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9847/15423 [8:29:19<4:48:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9848/15423 [8:29:21<4:48:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9848/15423 [8:29:21<4:48:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9849/15423 [8:29:25<4:48:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9849/15423 [8:29:25<4:48:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9850/15423 [8:29:25<4:48:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9850/15423 [8:29:25<4:48:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9851/15423 [8:29:26<4:48:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9851/15423 [8:29:26<4:48:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9852/15423 [8:29:29<4:48:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9852/15423 [8:29:29<4:48:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9853/15423 [8:29:31<4:48:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9853/15423 [8:29:31<4:48:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9854/15423 [8:29:33<4:47:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9854/15423 [8:29:33<4:47:58,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9855/15423 [8:29:34<4:47:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9855/15423 [8:29:34<4:47:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9856/15423 [8:29:57<4:48:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9856/15423 [8:29:57<4:48:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9857/15423 [8:30:00<4:47:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9857/15423 [8:30:00<4:47:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9858/15423 [8:30:02<4:47:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9858/15423 [8:30:02<4:47:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9859/15423 [8:30:05<4:47:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9859/15423 [8:30:05<4:47:52,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9860/15423 [8:30:07<4:47:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9860/15423 [8:30:07<4:47:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9861/15423 [8:30:08<4:47:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9861/15423 [8:30:08<4:47:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9862/15423 [8:30:11<4:47:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9862/15423 [8:30:11<4:47:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9863/15423 [8:30:15<4:47:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9863/15423 [8:30:15<4:47:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9864/15423 [8:30:20<4:47:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9864/15423 [8:30:20<4:47:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9865/15423 [8:30:23<4:47:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9865/15423 [8:30:23<4:47:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9866/15423 [8:30:26<4:47:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9866/15423 [8:30:26<4:47:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9867/15423 [8:30:28<4:47:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9867/15423 [8:30:28<4:47:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9868/15423 [8:30:30<4:47:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9868/15423 [8:30:30<4:47:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9869/15423 [8:30:32<4:47:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9869/15423 [8:30:32<4:47:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9870/15423 [8:30:35<4:47:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9870/15423 [8:30:35<4:47:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9871/15423 [8:30:38<4:47:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9871/15423 [8:30:38<4:47:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9872/15423 [8:30:40<4:47:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9872/15423 [8:30:40<4:47:08,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9873/15423 [8:30:44<4:47:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9873/15423 [8:30:44<4:47:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9874/15423 [8:30:46<4:47:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9874/15423 [8:30:46<4:47:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9875/15423 [8:30:49<4:46:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9875/15423 [8:30:49<4:46:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9876/15423 [8:30:50<4:46:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9876/15423 [8:30:50<4:46:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9877/15423 [8:30:55<4:46:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9877/15423 [8:30:55<4:46:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9878/15423 [8:30:57<4:46:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9878/15423 [8:30:57<4:46:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9879/15423 [8:30:59<4:46:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9879/15423 [8:30:59<4:46:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9880/15423 [8:31:04<4:46:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9880/15423 [8:31:04<4:46:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9881/15423 [8:31:07<4:46:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9881/15423 [8:31:07<4:46:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9882/15423 [8:31:10<4:46:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9882/15423 [8:31:10<4:46:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9883/15423 [8:31:10<4:46:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9883/15423 [8:31:10<4:46:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9884/15423 [8:31:12<4:46:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9884/15423 [8:31:12<4:46:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9885/15423 [8:31:13<4:46:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9885/15423 [8:31:13<4:46:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9886/15423 [8:31:15<4:46:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9886/15423 [8:31:15<4:46:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9887/15423 [8:31:16<4:46:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9887/15423 [8:31:16<4:46:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9888/15423 [8:31:36<4:46:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9888/15423 [8:31:36<4:46:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9889/15423 [8:31:39<4:46:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9889/15423 [8:31:39<4:46:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9890/15423 [8:31:39<4:46:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9890/15423 [8:31:39<4:46:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9891/15423 [8:31:40<4:46:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9891/15423 [8:31:40<4:46:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9892/15423 [8:31:42<4:46:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9892/15423 [8:31:42<4:46:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9893/15423 [8:31:43<4:46:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9893/15423 [8:31:43<4:46:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9894/15423 [8:31:46<4:45:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9894/15423 [8:31:46<4:45:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9895/15423 [8:31:49<4:45:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9895/15423 [8:31:49<4:45:56,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9896/15423 [8:31:53<4:45:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9896/15423 [8:31:53<4:45:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9897/15423 [8:31:54<4:45:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9897/15423 [8:31:54<4:45:49,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9898/15423 [8:31:55<4:45:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9898/15423 [8:31:55<4:45:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9899/15423 [8:31:59<4:45:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9899/15423 [8:31:59<4:45:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9900/15423 [8:32:00<4:45:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9900/15423 [8:32:00<4:45:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9901/15423 [8:32:03<4:45:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9901/15423 [8:32:03<4:45:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9902/15423 [8:32:06<4:45:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9902/15423 [8:32:06<4:45:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9903/15423 [8:32:09<4:45:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9903/15423 [8:32:09<4:45:28,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9904/15423 [8:32:13<4:45:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9904/15423 [8:32:13<4:45:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9905/15423 [8:32:15<4:45:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9905/15423 [8:32:15<4:45:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9906/15423 [8:32:19<4:45:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9906/15423 [8:32:19<4:45:19,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9907/15423 [8:32:22<4:45:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9907/15423 [8:32:22<4:45:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9908/15423 [8:32:24<4:45:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9908/15423 [8:32:24<4:45:13,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9909/15423 [8:32:28<4:45:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9909/15423 [8:32:28<4:45:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9910/15423 [8:32:31<4:45:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9910/15423 [8:32:31<4:45:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9911/15423 [8:32:35<4:45:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9911/15423 [8:32:35<4:45:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9912/15423 [8:32:38<4:45:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9912/15423 [8:32:38<4:45:01,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9913/15423 [8:32:43<4:44:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9913/15423 [8:32:43<4:44:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9914/15423 [8:32:45<4:44:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9914/15423 [8:32:45<4:44:55,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9915/15423 [8:32:47<4:44:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9915/15423 [8:32:47<4:44:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9916/15423 [8:32:49<4:44:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9916/15423 [8:32:49<4:44:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9917/15423 [8:32:52<4:44:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9917/15423 [8:32:52<4:44:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9918/15423 [8:32:54<4:44:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9918/15423 [8:32:54<4:44:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9919/15423 [8:32:54<4:44:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9919/15423 [8:32:54<4:44:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9920/15423 [8:33:17<4:44:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9920/15423 [8:33:17<4:44:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9921/15423 [8:33:21<4:44:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9921/15423 [8:33:21<4:44:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9922/15423 [8:33:22<4:44:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9922/15423 [8:33:22<4:44:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9923/15423 [8:33:25<4:44:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9923/15423 [8:33:25<4:44:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9924/15423 [8:33:26<4:44:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9924/15423 [8:33:26<4:44:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9925/15423 [8:33:30<4:44:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9925/15423 [8:33:30<4:44:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9926/15423 [8:33:32<4:44:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9926/15423 [8:33:32<4:44:24,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9927/15423 [8:33:34<4:44:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9927/15423 [8:33:34<4:44:20,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9928/15423 [8:33:36<4:44:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9928/15423 [8:33:36<4:44:16,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9929/15423 [8:33:37<4:44:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9929/15423 [8:33:37<4:44:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9930/15423 [8:33:41<4:44:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9930/15423 [8:33:41<4:44:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9931/15423 [8:33:46<4:44:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9931/15423 [8:33:46<4:44:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9932/15423 [8:33:49<4:44:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9932/15423 [8:33:49<4:44:04,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9933/15423 [8:33:51<4:44:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9933/15423 [8:33:51<4:44:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9934/15423 [8:33:53<4:43:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9934/15423 [8:33:53<4:43:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9935/15423 [8:33:57<4:43:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9935/15423 [8:33:57<4:43:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9936/15423 [8:34:01<4:43:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9936/15423 [8:34:01<4:43:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9937/15423 [8:34:03<4:43:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9937/15423 [8:34:03<4:43:47,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9938/15423 [8:34:07<4:43:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9938/15423 [8:34:07<4:43:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9939/15423 [8:34:08<4:43:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9939/15423 [8:34:08<4:43:41,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9940/15423 [8:34:12<4:43:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9940/15423 [8:34:12<4:43:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9941/15423 [8:34:14<4:43:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9941/15423 [8:34:14<4:43:34,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9942/15423 [8:34:17<4:43:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9942/15423 [8:34:17<4:43:31,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9943/15423 [8:34:19<4:43:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9943/15423 [8:34:19<4:43:27,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9944/15423 [8:34:23<4:43:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9944/15423 [8:34:23<4:43:25,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9945/15423 [8:34:25<4:43:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9945/15423 [8:34:25<4:43:21,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9946/15423 [8:34:28<4:43:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9946/15423 [8:34:28<4:43:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  64%|▋| 9947/15423 [8:34:32<4:43:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  64%|▋| 9947/15423 [8:34:32<4:43:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9948/15423 [8:34:35<4:43:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9948/15423 [8:34:35<4:43:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9949/15423 [8:34:38<4:43:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9949/15423 [8:34:38<4:43:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9950/15423 [8:34:42<4:43:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9950/15423 [8:34:42<4:43:06,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9951/15423 [8:34:43<4:43:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9951/15423 [8:34:43<4:43:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9952/15423 [8:34:53<4:43:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9952/15423 [8:34:53<4:43:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9953/15423 [8:34:55<4:42:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9953/15423 [8:34:55<4:42:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9954/15423 [8:35:00<4:42:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9954/15423 [8:35:00<4:42:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9955/15423 [8:35:04<4:42:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9955/15423 [8:35:04<4:42:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9956/15423 [8:35:05<4:42:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9956/15423 [8:35:05<4:42:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9957/15423 [8:35:09<4:42:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9957/15423 [8:35:09<4:42:48,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9958/15423 [8:35:13<4:42:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9958/15423 [8:35:13<4:42:45,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9959/15423 [8:35:17<4:42:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9959/15423 [8:35:17<4:42:42,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9960/15423 [8:35:21<4:42:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9960/15423 [8:35:21<4:42:39,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9961/15423 [8:35:24<4:42:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9961/15423 [8:35:24<4:42:36,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9962/15423 [8:35:25<4:42:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9962/15423 [8:35:25<4:42:32,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9963/15423 [8:35:28<4:42:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9963/15423 [8:35:28<4:42:29,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9964/15423 [8:35:31<4:42:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9964/15423 [8:35:31<4:42:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9965/15423 [8:35:33<4:42:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9965/15423 [8:35:33<4:42:23,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9966/15423 [8:35:34<4:42:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9966/15423 [8:35:34<4:42:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9967/15423 [8:35:36<4:42:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9967/15423 [8:35:36<4:42:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9968/15423 [8:35:38<4:42:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9968/15423 [8:35:38<4:42:10,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9969/15423 [8:35:40<4:42:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9969/15423 [8:35:40<4:42:07,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9970/15423 [8:35:42<4:42:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9970/15423 [8:35:42<4:42:03,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9971/15423 [8:35:45<4:42:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9971/15423 [8:35:45<4:42:00,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9972/15423 [8:35:47<4:41:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9972/15423 [8:35:47<4:41:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9973/15423 [8:35:52<4:41:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9973/15423 [8:35:52<4:41:54,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9974/15423 [8:35:54<4:41:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9974/15423 [8:35:54<4:41:51,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9975/15423 [8:35:55<4:41:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9975/15423 [8:35:55<4:41:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9976/15423 [8:36:00<4:41:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9976/15423 [8:36:00<4:41:44,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9977/15423 [8:36:02<4:41:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9977/15423 [8:36:02<4:41:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9978/15423 [8:36:04<4:41:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9978/15423 [8:36:04<4:41:37,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9979/15423 [8:36:06<4:41:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9979/15423 [8:36:06<4:41:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9980/15423 [8:36:10<4:41:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9980/15423 [8:36:10<4:41:30,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9981/15423 [8:36:11<4:41:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9981/15423 [8:36:11<4:41:26,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9982/15423 [8:36:12<4:41:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9982/15423 [8:36:12<4:41:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9983/15423 [8:36:13<4:41:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9983/15423 [8:36:13<4:41:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9984/15423 [8:36:30<4:41:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9984/15423 [8:36:30<4:41:22,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9985/15423 [8:36:31<4:41:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9985/15423 [8:36:31<4:41:18,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9986/15423 [8:36:34<4:41:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9986/15423 [8:36:34<4:41:15,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9987/15423 [8:36:38<4:41:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9987/15423 [8:36:38<4:41:12,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9988/15423 [8:36:41<4:41:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9988/15423 [8:36:41<4:41:09,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9989/15423 [8:36:42<4:41:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9989/15423 [8:36:42<4:41:05,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9990/15423 [8:36:46<4:41:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9990/15423 [8:36:46<4:41:02,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9991/15423 [8:36:49<4:40:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9991/15423 [8:36:49<4:40:59,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9992/15423 [8:36:54<4:40:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9992/15423 [8:36:54<4:40:57,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9993/15423 [8:36:56<4:40:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9993/15423 [8:36:56<4:40:53,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9994/15423 [8:36:59<4:40:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9994/15423 [8:36:59<4:40:50,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9995/15423 [8:37:01<4:40:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9995/15423 [8:37:01<4:40:46,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9996/15423 [8:37:04<4:40:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9996/15423 [8:37:04<4:40:43,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9997/15423 [8:37:07<4:40:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9997/15423 [8:37:07<4:40:40,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9998/15423 [8:37:11<4:40:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9998/15423 [8:37:11<4:40:38,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 9999/15423 [8:37:12<4:40:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  65%|▋| 9999/15423 [8:37:12<4:40:33,  3.10s/it, v_num=ufwn, train/loss="
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10000/15423 [8:37:16<4:40:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10000/15423 [8:37:16<4:40:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10001/15423 [8:37:18<4:40:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10001/15423 [8:37:18<4:40:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10002/15423 [8:37:20<4:40:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10002/15423 [8:37:20<4:40:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10003/15423 [8:37:24<4:40:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10003/15423 [8:37:24<4:40:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10004/15423 [8:37:27<4:40:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10004/15423 [8:37:27<4:40:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10005/15423 [8:37:29<4:40:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10005/15423 [8:37:29<4:40:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10006/15423 [8:37:30<4:40:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10006/15423 [8:37:30<4:40:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10007/15423 [8:37:34<4:40:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10007/15423 [8:37:34<4:40:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10008/15423 [8:37:35<4:40:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10008/15423 [8:37:35<4:40:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10009/15423 [8:37:38<4:39:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10009/15423 [8:37:38<4:39:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10010/15423 [8:37:41<4:39:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10010/15423 [8:37:41<4:39:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10011/15423 [8:37:45<4:39:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10011/15423 [8:37:45<4:39:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10012/15423 [8:37:46<4:39:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10012/15423 [8:37:46<4:39:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10013/15423 [8:37:47<4:39:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10013/15423 [8:37:47<4:39:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10014/15423 [8:37:49<4:39:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10014/15423 [8:37:49<4:39:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10015/15423 [8:37:52<4:39:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10015/15423 [8:37:52<4:39:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10016/15423 [8:38:12<4:39:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10016/15423 [8:38:12<4:39:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10017/15423 [8:38:14<4:39:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10017/15423 [8:38:14<4:39:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10018/15423 [8:38:17<4:39:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10018/15423 [8:38:17<4:39:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10019/15423 [8:38:18<4:39:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10019/15423 [8:38:18<4:39:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10020/15423 [8:38:22<4:39:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10020/15423 [8:38:22<4:39:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10021/15423 [8:38:25<4:39:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10021/15423 [8:38:25<4:39:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10022/15423 [8:38:28<4:39:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10022/15423 [8:38:28<4:39:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10023/15423 [8:38:31<4:39:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10023/15423 [8:38:31<4:39:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10024/15423 [8:38:34<4:39:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10024/15423 [8:38:34<4:39:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10025/15423 [8:38:37<4:39:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10025/15423 [8:38:37<4:39:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10026/15423 [8:38:41<4:39:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10026/15423 [8:38:41<4:39:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10027/15423 [8:38:45<4:39:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10027/15423 [8:38:45<4:39:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10028/15423 [8:38:48<4:39:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10028/15423 [8:38:48<4:39:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10029/15423 [8:38:53<4:39:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10029/15423 [8:38:53<4:39:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10030/15423 [8:38:55<4:39:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10030/15423 [8:38:55<4:39:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10031/15423 [8:38:59<4:38:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10031/15423 [8:38:59<4:38:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10032/15423 [8:39:02<4:38:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10032/15423 [8:39:02<4:38:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10033/15423 [8:39:03<4:38:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10033/15423 [8:39:03<4:38:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10034/15423 [8:39:05<4:38:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10034/15423 [8:39:05<4:38:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10035/15423 [8:39:06<4:38:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10035/15423 [8:39:06<4:38:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10036/15423 [8:39:08<4:38:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10036/15423 [8:39:08<4:38:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10037/15423 [8:39:09<4:38:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10037/15423 [8:39:09<4:38:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10038/15423 [8:39:12<4:38:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10038/15423 [8:39:12<4:38:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10039/15423 [8:39:14<4:38:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10039/15423 [8:39:14<4:38:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10040/15423 [8:39:17<4:38:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10040/15423 [8:39:17<4:38:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10041/15423 [8:39:20<4:38:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10041/15423 [8:39:20<4:38:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10042/15423 [8:39:20<4:38:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10042/15423 [8:39:20<4:38:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10043/15423 [8:39:24<4:38:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10043/15423 [8:39:24<4:38:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10044/15423 [8:39:28<4:38:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10044/15423 [8:39:28<4:38:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10045/15423 [8:39:29<4:38:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10045/15423 [8:39:29<4:38:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10046/15423 [8:39:31<4:38:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10046/15423 [8:39:31<4:38:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10047/15423 [8:39:33<4:38:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10047/15423 [8:39:33<4:38:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10048/15423 [8:39:51<4:38:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10048/15423 [8:39:51<4:38:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10049/15423 [8:39:53<4:38:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10049/15423 [8:39:53<4:38:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10050/15423 [8:39:55<4:37:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10050/15423 [8:39:55<4:37:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10051/15423 [8:39:57<4:37:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10051/15423 [8:39:57<4:37:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10052/15423 [8:39:59<4:37:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10052/15423 [8:39:59<4:37:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10053/15423 [8:40:02<4:37:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10053/15423 [8:40:02<4:37:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10054/15423 [8:40:03<4:37:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10054/15423 [8:40:03<4:37:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10055/15423 [8:40:05<4:37:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10055/15423 [8:40:05<4:37:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10056/15423 [8:40:06<4:37:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10056/15423 [8:40:06<4:37:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10057/15423 [8:40:09<4:37:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10057/15423 [8:40:09<4:37:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10058/15423 [8:40:10<4:37:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10058/15423 [8:40:10<4:37:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10059/15423 [8:40:15<4:37:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10059/15423 [8:40:15<4:37:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10060/15423 [8:40:16<4:37:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10060/15423 [8:40:16<4:37:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10061/15423 [8:40:19<4:37:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10061/15423 [8:40:19<4:37:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10062/15423 [8:40:21<4:37:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10062/15423 [8:40:21<4:37:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10063/15423 [8:40:23<4:37:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10063/15423 [8:40:23<4:37:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10064/15423 [8:40:24<4:37:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10064/15423 [8:40:24<4:37:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10065/15423 [8:40:27<4:37:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10065/15423 [8:40:27<4:37:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10066/15423 [8:40:31<4:37:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10066/15423 [8:40:31<4:37:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10067/15423 [8:40:34<4:36:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10067/15423 [8:40:34<4:36:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10068/15423 [8:40:36<4:36:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10068/15423 [8:40:36<4:36:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10069/15423 [8:40:38<4:36:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10069/15423 [8:40:38<4:36:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10070/15423 [8:40:39<4:36:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10070/15423 [8:40:39<4:36:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10071/15423 [8:40:42<4:36:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10071/15423 [8:40:42<4:36:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10072/15423 [8:40:45<4:36:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10072/15423 [8:40:45<4:36:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10073/15423 [8:40:48<4:36:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10073/15423 [8:40:48<4:36:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10074/15423 [8:40:49<4:36:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10074/15423 [8:40:49<4:36:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10075/15423 [8:40:50<4:36:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10075/15423 [8:40:50<4:36:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10076/15423 [8:40:52<4:36:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10076/15423 [8:40:52<4:36:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10077/15423 [8:40:54<4:36:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10077/15423 [8:40:54<4:36:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10078/15423 [8:40:58<4:36:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10078/15423 [8:40:58<4:36:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10079/15423 [8:41:02<4:36:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10079/15423 [8:41:02<4:36:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10080/15423 [8:41:26<4:36:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10080/15423 [8:41:26<4:36:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10081/15423 [8:41:27<4:36:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10081/15423 [8:41:27<4:36:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10082/15423 [8:41:31<4:36:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10082/15423 [8:41:31<4:36:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10083/15423 [8:41:33<4:36:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10083/15423 [8:41:33<4:36:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10084/15423 [8:41:37<4:36:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10084/15423 [8:41:37<4:36:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10085/15423 [8:41:41<4:36:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10085/15423 [8:41:41<4:36:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10086/15423 [8:41:45<4:36:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10086/15423 [8:41:45<4:36:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10087/15423 [8:41:47<4:36:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10087/15423 [8:41:47<4:36:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10088/15423 [8:41:49<4:35:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10088/15423 [8:41:49<4:35:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10089/15423 [8:41:51<4:35:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10089/15423 [8:41:51<4:35:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10090/15423 [8:41:55<4:35:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10090/15423 [8:41:55<4:35:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10091/15423 [8:41:57<4:35:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10091/15423 [8:41:57<4:35:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10092/15423 [8:42:01<4:35:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10092/15423 [8:42:01<4:35:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10093/15423 [8:42:03<4:35:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10093/15423 [8:42:03<4:35:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10094/15423 [8:42:04<4:35:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10094/15423 [8:42:04<4:35:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10095/15423 [8:42:06<4:35:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10095/15423 [8:42:06<4:35:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10096/15423 [8:42:08<4:35:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10096/15423 [8:42:08<4:35:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10097/15423 [8:42:11<4:35:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10097/15423 [8:42:11<4:35:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10098/15423 [8:42:14<4:35:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10098/15423 [8:42:14<4:35:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10099/15423 [8:42:16<4:35:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10099/15423 [8:42:16<4:35:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10100/15423 [8:42:20<4:35:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10100/15423 [8:42:20<4:35:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10101/15423 [8:42:20<4:35:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10101/15423 [8:42:20<4:35:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  65%|▋| 10102/15423 [8:42:23<4:35:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  65%|▋| 10102/15423 [8:42:23<4:35:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10103/15423 [8:42:25<4:35:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10103/15423 [8:42:25<4:35:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10104/15423 [8:42:29<4:35:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10104/15423 [8:42:29<4:35:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10105/15423 [8:42:30<4:34:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10105/15423 [8:42:30<4:34:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10106/15423 [8:42:33<4:34:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10106/15423 [8:42:33<4:34:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10107/15423 [8:42:37<4:34:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10107/15423 [8:42:37<4:34:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10108/15423 [8:42:38<4:34:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10108/15423 [8:42:38<4:34:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10109/15423 [8:42:42<4:34:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10109/15423 [8:42:42<4:34:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10110/15423 [8:42:45<4:34:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10110/15423 [8:42:45<4:34:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10111/15423 [8:42:48<4:34:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10111/15423 [8:42:48<4:34:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10112/15423 [8:43:00<4:34:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10112/15423 [8:43:00<4:34:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10113/15423 [8:43:02<4:34:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10113/15423 [8:43:02<4:34:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10114/15423 [8:43:06<4:34:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10114/15423 [8:43:06<4:34:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10115/15423 [8:43:09<4:34:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10115/15423 [8:43:09<4:34:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10116/15423 [8:43:11<4:34:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10116/15423 [8:43:11<4:34:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10117/15423 [8:43:13<4:34:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10117/15423 [8:43:13<4:34:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10118/15423 [8:43:17<4:34:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10118/15423 [8:43:17<4:34:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10119/15423 [8:43:19<4:34:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10119/15423 [8:43:19<4:34:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10120/15423 [8:43:21<4:34:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10120/15423 [8:43:21<4:34:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10121/15423 [8:43:23<4:34:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10121/15423 [8:43:23<4:34:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10122/15423 [8:43:26<4:34:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10122/15423 [8:43:26<4:34:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10123/15423 [8:43:29<4:34:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10123/15423 [8:43:29<4:34:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10124/15423 [8:43:32<4:34:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10124/15423 [8:43:32<4:34:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10125/15423 [8:43:35<4:33:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10125/15423 [8:43:35<4:33:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10126/15423 [8:43:38<4:33:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10126/15423 [8:43:38<4:33:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10127/15423 [8:43:42<4:33:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10127/15423 [8:43:42<4:33:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10128/15423 [8:43:44<4:33:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10128/15423 [8:43:44<4:33:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10129/15423 [8:43:48<4:33:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10129/15423 [8:43:48<4:33:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10130/15423 [8:43:48<4:33:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10130/15423 [8:43:48<4:33:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10131/15423 [8:43:51<4:33:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10131/15423 [8:43:51<4:33:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10132/15423 [8:43:51<4:33:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10132/15423 [8:43:51<4:33:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10133/15423 [8:43:52<4:33:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10133/15423 [8:43:52<4:33:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10134/15423 [8:43:54<4:33:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10134/15423 [8:43:54<4:33:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10135/15423 [8:43:58<4:33:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10135/15423 [8:43:58<4:33:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10136/15423 [8:44:02<4:33:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10136/15423 [8:44:02<4:33:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10137/15423 [8:44:06<4:33:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10137/15423 [8:44:06<4:33:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10138/15423 [8:44:10<4:33:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10138/15423 [8:44:10<4:33:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10139/15423 [8:44:12<4:33:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10139/15423 [8:44:12<4:33:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10140/15423 [8:44:12<4:33:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10140/15423 [8:44:12<4:33:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10141/15423 [8:44:14<4:33:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10141/15423 [8:44:14<4:33:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10142/15423 [8:44:17<4:33:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10142/15423 [8:44:17<4:33:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10143/15423 [8:44:22<4:32:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10143/15423 [8:44:22<4:32:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10144/15423 [8:44:41<4:33:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10144/15423 [8:44:41<4:33:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10145/15423 [8:44:44<4:33:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10145/15423 [8:44:44<4:33:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10146/15423 [8:44:47<4:32:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10146/15423 [8:44:47<4:32:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10147/15423 [8:44:51<4:32:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10147/15423 [8:44:51<4:32:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10148/15423 [8:44:53<4:32:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10148/15423 [8:44:53<4:32:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10149/15423 [8:44:56<4:32:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10149/15423 [8:44:56<4:32:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10150/15423 [8:44:57<4:32:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10150/15423 [8:44:57<4:32:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10151/15423 [8:45:01<4:32:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10151/15423 [8:45:01<4:32:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10152/15423 [8:45:02<4:32:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10152/15423 [8:45:02<4:32:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10153/15423 [8:45:05<4:32:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10153/15423 [8:45:05<4:32:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10154/15423 [8:45:08<4:32:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10154/15423 [8:45:08<4:32:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10155/15423 [8:45:12<4:32:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10155/15423 [8:45:12<4:32:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10156/15423 [8:45:13<4:32:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10156/15423 [8:45:13<4:32:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10157/15423 [8:45:15<4:32:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10157/15423 [8:45:15<4:32:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10158/15423 [8:45:17<4:32:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10158/15423 [8:45:17<4:32:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10159/15423 [8:45:20<4:32:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10159/15423 [8:45:20<4:32:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10160/15423 [8:45:21<4:32:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10160/15423 [8:45:21<4:32:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10161/15423 [8:45:25<4:32:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10161/15423 [8:45:25<4:32:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10162/15423 [8:45:29<4:32:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10162/15423 [8:45:29<4:32:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10163/15423 [8:45:30<4:31:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10163/15423 [8:45:30<4:31:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10164/15423 [8:45:32<4:31:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10164/15423 [8:45:32<4:31:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10165/15423 [8:45:36<4:31:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10165/15423 [8:45:36<4:31:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10166/15423 [8:45:41<4:31:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10166/15423 [8:45:41<4:31:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10167/15423 [8:45:43<4:31:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10167/15423 [8:45:43<4:31:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10168/15423 [8:45:44<4:31:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10168/15423 [8:45:44<4:31:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10169/15423 [8:45:45<4:31:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10169/15423 [8:45:45<4:31:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10170/15423 [8:45:46<4:31:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10170/15423 [8:45:46<4:31:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10171/15423 [8:45:48<4:31:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10171/15423 [8:45:48<4:31:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10172/15423 [8:45:50<4:31:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10172/15423 [8:45:50<4:31:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10173/15423 [8:45:51<4:31:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10173/15423 [8:45:51<4:31:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10174/15423 [8:45:54<4:31:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10174/15423 [8:45:54<4:31:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10175/15423 [8:45:56<4:31:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10175/15423 [8:45:56<4:31:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10176/15423 [8:46:23<4:31:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10176/15423 [8:46:23<4:31:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10177/15423 [8:46:26<4:31:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10177/15423 [8:46:26<4:31:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10178/15423 [8:46:27<4:31:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10178/15423 [8:46:27<4:31:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10179/15423 [8:46:30<4:31:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10179/15423 [8:46:30<4:31:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10180/15423 [8:46:32<4:31:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10180/15423 [8:46:32<4:31:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10181/15423 [8:46:34<4:31:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10181/15423 [8:46:34<4:31:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10182/15423 [8:46:38<4:31:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10182/15423 [8:46:38<4:31:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10183/15423 [8:46:40<4:31:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10183/15423 [8:46:40<4:31:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10184/15423 [8:46:44<4:30:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10184/15423 [8:46:44<4:30:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10185/15423 [8:46:47<4:30:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10185/15423 [8:46:47<4:30:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10186/15423 [8:46:49<4:30:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10186/15423 [8:46:49<4:30:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10187/15423 [8:46:51<4:30:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10187/15423 [8:46:51<4:30:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10188/15423 [8:46:52<4:30:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10188/15423 [8:46:52<4:30:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10189/15423 [8:46:56<4:30:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10189/15423 [8:46:56<4:30:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10190/15423 [8:46:58<4:30:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10190/15423 [8:46:58<4:30:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10191/15423 [8:46:58<4:30:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10191/15423 [8:46:58<4:30:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10192/15423 [8:47:02<4:30:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10192/15423 [8:47:02<4:30:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10193/15423 [8:47:05<4:30:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10193/15423 [8:47:05<4:30:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10194/15423 [8:47:06<4:30:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10194/15423 [8:47:06<4:30:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10195/15423 [8:47:10<4:30:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10195/15423 [8:47:10<4:30:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10196/15423 [8:47:12<4:30:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10196/15423 [8:47:12<4:30:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10197/15423 [8:47:15<4:30:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10197/15423 [8:47:15<4:30:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10198/15423 [8:47:15<4:30:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10198/15423 [8:47:15<4:30:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10199/15423 [8:47:17<4:30:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10199/15423 [8:47:17<4:30:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10200/15423 [8:47:18<4:30:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10200/15423 [8:47:18<4:30:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10201/15423 [8:47:19<4:29:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10201/15423 [8:47:19<4:29:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10202/15423 [8:47:22<4:29:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10202/15423 [8:47:22<4:29:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10203/15423 [8:47:24<4:29:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10203/15423 [8:47:24<4:29:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10204/15423 [8:47:26<4:29:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10204/15423 [8:47:26<4:29:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10205/15423 [8:47:30<4:29:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10205/15423 [8:47:30<4:29:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10206/15423 [8:47:32<4:29:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10206/15423 [8:47:32<4:29:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10207/15423 [8:47:36<4:29:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10207/15423 [8:47:36<4:29:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10208/15423 [8:48:01<4:29:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10208/15423 [8:48:01<4:29:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10209/15423 [8:48:05<4:29:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10209/15423 [8:48:05<4:29:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10210/15423 [8:48:06<4:29:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10210/15423 [8:48:06<4:29:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10211/15423 [8:48:07<4:29:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10211/15423 [8:48:07<4:29:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10212/15423 [8:48:08<4:29:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10212/15423 [8:48:08<4:29:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10213/15423 [8:48:12<4:29:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10213/15423 [8:48:12<4:29:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10214/15423 [8:48:16<4:29:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10214/15423 [8:48:16<4:29:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10215/15423 [8:48:19<4:29:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10215/15423 [8:48:19<4:29:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10216/15423 [8:48:21<4:29:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10216/15423 [8:48:21<4:29:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10217/15423 [8:48:26<4:29:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10217/15423 [8:48:26<4:29:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10218/15423 [8:48:27<4:29:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10218/15423 [8:48:27<4:29:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10219/15423 [8:48:29<4:29:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10219/15423 [8:48:29<4:29:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10220/15423 [8:48:33<4:29:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10220/15423 [8:48:33<4:29:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10221/15423 [8:48:37<4:29:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10221/15423 [8:48:37<4:29:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10222/15423 [8:48:38<4:28:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10222/15423 [8:48:38<4:28:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10223/15423 [8:48:41<4:28:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10223/15423 [8:48:41<4:28:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10224/15423 [8:48:43<4:28:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10224/15423 [8:48:43<4:28:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10225/15423 [8:48:46<4:28:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10225/15423 [8:48:46<4:28:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10226/15423 [8:48:49<4:28:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10226/15423 [8:48:49<4:28:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10227/15423 [8:48:50<4:28:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10227/15423 [8:48:50<4:28:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10228/15423 [8:48:54<4:28:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10228/15423 [8:48:54<4:28:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10229/15423 [8:48:55<4:28:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10229/15423 [8:48:55<4:28:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10230/15423 [8:48:56<4:28:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10230/15423 [8:48:56<4:28:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10231/15423 [8:48:57<4:28:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10231/15423 [8:48:57<4:28:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10232/15423 [8:49:00<4:28:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10232/15423 [8:49:00<4:28:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10233/15423 [8:49:02<4:28:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10233/15423 [8:49:02<4:28:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10234/15423 [8:49:03<4:28:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10234/15423 [8:49:03<4:28:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10235/15423 [8:49:05<4:28:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10235/15423 [8:49:05<4:28:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10236/15423 [8:49:06<4:28:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10236/15423 [8:49:06<4:28:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10237/15423 [8:49:08<4:28:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10237/15423 [8:49:08<4:28:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10238/15423 [8:49:12<4:28:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10238/15423 [8:49:12<4:28:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10239/15423 [8:49:14<4:27:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10239/15423 [8:49:14<4:27:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10240/15423 [8:49:30<4:28:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10240/15423 [8:49:30<4:28:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10241/15423 [8:49:34<4:27:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10241/15423 [8:49:34<4:27:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10242/15423 [8:49:36<4:27:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10242/15423 [8:49:36<4:27:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10243/15423 [8:49:38<4:27:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10243/15423 [8:49:38<4:27:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10244/15423 [8:49:39<4:27:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10244/15423 [8:49:39<4:27:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10245/15423 [8:49:43<4:27:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10245/15423 [8:49:43<4:27:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10246/15423 [8:49:47<4:27:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10246/15423 [8:49:47<4:27:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10247/15423 [8:49:50<4:27:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10247/15423 [8:49:50<4:27:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10248/15423 [8:49:51<4:27:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10248/15423 [8:49:51<4:27:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10249/15423 [8:49:56<4:27:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10249/15423 [8:49:56<4:27:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10250/15423 [8:50:00<4:27:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10250/15423 [8:50:00<4:27:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10251/15423 [8:50:02<4:27:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10251/15423 [8:50:02<4:27:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10252/15423 [8:50:06<4:27:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10252/15423 [8:50:06<4:27:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10253/15423 [8:50:08<4:27:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10253/15423 [8:50:08<4:27:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10254/15423 [8:50:11<4:27:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10254/15423 [8:50:11<4:27:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10255/15423 [8:50:13<4:27:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10255/15423 [8:50:13<4:27:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  66%|▋| 10256/15423 [8:50:17<4:27:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  66%|▋| 10256/15423 [8:50:17<4:27:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10257/15423 [8:50:20<4:27:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10257/15423 [8:50:20<4:27:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10258/15423 [8:50:24<4:27:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10258/15423 [8:50:24<4:27:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10259/15423 [8:50:26<4:27:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10259/15423 [8:50:26<4:27:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10260/15423 [8:50:28<4:26:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10260/15423 [8:50:28<4:26:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10261/15423 [8:50:30<4:26:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10261/15423 [8:50:30<4:26:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10262/15423 [8:50:33<4:26:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10262/15423 [8:50:33<4:26:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10263/15423 [8:50:34<4:26:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10263/15423 [8:50:34<4:26:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10264/15423 [8:50:37<4:26:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10264/15423 [8:50:37<4:26:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10265/15423 [8:50:38<4:26:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10265/15423 [8:50:38<4:26:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10266/15423 [8:50:41<4:26:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10266/15423 [8:50:41<4:26:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10267/15423 [8:50:42<4:26:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10267/15423 [8:50:42<4:26:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10268/15423 [8:50:46<4:26:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10268/15423 [8:50:46<4:26:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10269/15423 [8:50:49<4:26:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10269/15423 [8:50:49<4:26:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10270/15423 [8:50:50<4:26:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10270/15423 [8:50:50<4:26:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10271/15423 [8:50:52<4:26:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10271/15423 [8:50:52<4:26:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10272/15423 [8:51:12<4:26:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10272/15423 [8:51:12<4:26:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10273/15423 [8:51:14<4:26:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10273/15423 [8:51:14<4:26:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10274/15423 [8:51:18<4:26:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10274/15423 [8:51:18<4:26:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10275/15423 [8:51:19<4:26:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10275/15423 [8:51:19<4:26:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10276/15423 [8:51:21<4:26:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10276/15423 [8:51:21<4:26:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10277/15423 [8:51:23<4:26:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10277/15423 [8:51:23<4:26:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10278/15423 [8:51:25<4:26:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10278/15423 [8:51:25<4:26:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10279/15423 [8:51:27<4:25:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10279/15423 [8:51:27<4:25:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10280/15423 [8:51:29<4:25:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10280/15423 [8:51:29<4:25:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10281/15423 [8:51:31<4:25:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10281/15423 [8:51:31<4:25:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10282/15423 [8:51:33<4:25:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10282/15423 [8:51:33<4:25:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10283/15423 [8:51:37<4:25:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10283/15423 [8:51:37<4:25:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10284/15423 [8:51:41<4:25:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10284/15423 [8:51:41<4:25:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10285/15423 [8:51:45<4:25:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10285/15423 [8:51:45<4:25:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10286/15423 [8:51:46<4:25:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10286/15423 [8:51:46<4:25:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10287/15423 [8:51:50<4:25:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10287/15423 [8:51:50<4:25:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10288/15423 [8:51:54<4:25:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10288/15423 [8:51:54<4:25:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10289/15423 [8:51:58<4:25:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10289/15423 [8:51:58<4:25:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10290/15423 [8:52:00<4:25:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10290/15423 [8:52:00<4:25:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10291/15423 [8:52:02<4:25:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10291/15423 [8:52:02<4:25:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10292/15423 [8:52:06<4:25:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10292/15423 [8:52:06<4:25:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10293/15423 [8:52:10<4:25:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10293/15423 [8:52:10<4:25:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10294/15423 [8:52:11<4:25:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10294/15423 [8:52:11<4:25:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10295/15423 [8:52:14<4:25:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10295/15423 [8:52:14<4:25:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10296/15423 [8:52:17<4:25:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10296/15423 [8:52:17<4:25:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10297/15423 [8:52:19<4:24:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10297/15423 [8:52:19<4:24:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10298/15423 [8:52:23<4:24:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10298/15423 [8:52:23<4:24:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10299/15423 [8:52:27<4:24:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10299/15423 [8:52:27<4:24:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10300/15423 [8:52:30<4:24:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10300/15423 [8:52:30<4:24:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10301/15423 [8:52:34<4:24:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10301/15423 [8:52:34<4:24:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10302/15423 [8:52:35<4:24:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10302/15423 [8:52:35<4:24:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10303/15423 [8:52:36<4:24:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10303/15423 [8:52:36<4:24:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10304/15423 [8:52:48<4:24:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10304/15423 [8:52:48<4:24:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10305/15423 [8:52:49<4:24:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10305/15423 [8:52:49<4:24:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10306/15423 [8:52:53<4:24:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10306/15423 [8:52:53<4:24:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10307/15423 [8:52:57<4:24:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10307/15423 [8:52:57<4:24:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10308/15423 [8:52:57<4:24:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10308/15423 [8:52:57<4:24:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10309/15423 [8:53:01<4:24:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10309/15423 [8:53:01<4:24:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10310/15423 [8:53:02<4:24:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10310/15423 [8:53:02<4:24:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10311/15423 [8:53:06<4:24:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10311/15423 [8:53:06<4:24:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10312/15423 [8:53:08<4:24:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10312/15423 [8:53:08<4:24:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10313/15423 [8:53:11<4:24:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10313/15423 [8:53:11<4:24:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10314/15423 [8:53:15<4:24:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10314/15423 [8:53:15<4:24:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10315/15423 [8:53:20<4:24:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10315/15423 [8:53:20<4:24:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10316/15423 [8:53:24<4:24:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10316/15423 [8:53:24<4:24:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10317/15423 [8:53:24<4:23:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10317/15423 [8:53:24<4:23:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10318/15423 [8:53:26<4:23:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10318/15423 [8:53:26<4:23:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10319/15423 [8:53:27<4:23:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10319/15423 [8:53:27<4:23:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10320/15423 [8:53:29<4:23:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10320/15423 [8:53:29<4:23:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10321/15423 [8:53:31<4:23:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10321/15423 [8:53:31<4:23:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10322/15423 [8:53:33<4:23:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10322/15423 [8:53:33<4:23:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10323/15423 [8:53:35<4:23:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10323/15423 [8:53:35<4:23:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10324/15423 [8:53:39<4:23:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10324/15423 [8:53:39<4:23:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10325/15423 [8:53:43<4:23:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10325/15423 [8:53:43<4:23:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10326/15423 [8:53:44<4:23:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10326/15423 [8:53:44<4:23:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10327/15423 [8:53:46<4:23:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10327/15423 [8:53:46<4:23:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10328/15423 [8:53:47<4:23:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10328/15423 [8:53:47<4:23:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10329/15423 [8:53:51<4:23:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10329/15423 [8:53:51<4:23:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10330/15423 [8:53:53<4:23:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10330/15423 [8:53:53<4:23:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10331/15423 [8:53:56<4:23:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10331/15423 [8:53:56<4:23:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10332/15423 [8:53:56<4:23:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10332/15423 [8:53:56<4:23:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10333/15423 [8:53:59<4:23:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10333/15423 [8:53:59<4:23:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10334/15423 [8:54:03<4:22:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10334/15423 [8:54:03<4:22:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10335/15423 [8:54:06<4:22:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10335/15423 [8:54:06<4:22:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10336/15423 [8:54:25<4:23:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10336/15423 [8:54:25<4:23:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10337/15423 [8:54:29<4:22:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10337/15423 [8:54:29<4:22:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10338/15423 [8:54:32<4:22:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10338/15423 [8:54:32<4:22:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10339/15423 [8:54:34<4:22:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10339/15423 [8:54:34<4:22:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10340/15423 [8:54:39<4:22:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10340/15423 [8:54:39<4:22:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10341/15423 [8:54:43<4:22:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10341/15423 [8:54:43<4:22:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10342/15423 [8:54:45<4:22:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10342/15423 [8:54:45<4:22:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10343/15423 [8:54:49<4:22:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10343/15423 [8:54:49<4:22:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10344/15423 [8:54:50<4:22:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10344/15423 [8:54:50<4:22:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10345/15423 [8:54:53<4:22:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10345/15423 [8:54:53<4:22:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10346/15423 [8:54:55<4:22:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10346/15423 [8:54:55<4:22:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10347/15423 [8:54:59<4:22:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10347/15423 [8:54:59<4:22:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10348/15423 [8:55:03<4:22:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10348/15423 [8:55:03<4:22:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10349/15423 [8:55:06<4:22:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10349/15423 [8:55:06<4:22:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10350/15423 [8:55:07<4:22:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10350/15423 [8:55:07<4:22:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10351/15423 [8:55:12<4:22:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10351/15423 [8:55:12<4:22:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10352/15423 [8:55:16<4:22:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10352/15423 [8:55:16<4:22:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10353/15423 [8:55:17<4:22:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10353/15423 [8:55:17<4:22:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10354/15423 [8:55:18<4:22:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10354/15423 [8:55:18<4:22:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10355/15423 [8:55:22<4:22:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10355/15423 [8:55:22<4:22:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10356/15423 [8:55:26<4:21:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10356/15423 [8:55:26<4:21:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10357/15423 [8:55:28<4:21:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10357/15423 [8:55:28<4:21:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10358/15423 [8:55:30<4:21:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10358/15423 [8:55:30<4:21:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10359/15423 [8:55:32<4:21:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10359/15423 [8:55:32<4:21:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10360/15423 [8:55:36<4:21:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10360/15423 [8:55:36<4:21:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10361/15423 [8:55:39<4:21:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10361/15423 [8:55:39<4:21:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10362/15423 [8:55:43<4:21:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10362/15423 [8:55:43<4:21:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10363/15423 [8:55:45<4:21:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10363/15423 [8:55:45<4:21:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10364/15423 [8:55:47<4:21:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10364/15423 [8:55:47<4:21:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10365/15423 [8:55:50<4:21:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10365/15423 [8:55:50<4:21:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10366/15423 [8:55:51<4:21:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10366/15423 [8:55:51<4:21:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10367/15423 [8:55:53<4:21:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10367/15423 [8:55:53<4:21:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10368/15423 [8:55:59<4:21:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10368/15423 [8:55:59<4:21:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10369/15423 [8:56:00<4:21:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10369/15423 [8:56:00<4:21:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10370/15423 [8:56:03<4:21:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10370/15423 [8:56:03<4:21:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10371/15423 [8:56:05<4:21:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10371/15423 [8:56:05<4:21:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10372/15423 [8:56:08<4:21:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10372/15423 [8:56:08<4:21:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10373/15423 [8:56:10<4:21:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10373/15423 [8:56:10<4:21:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10374/15423 [8:56:11<4:20:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10374/15423 [8:56:11<4:20:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10375/15423 [8:56:13<4:20:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10375/15423 [8:56:13<4:20:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10376/15423 [8:56:16<4:20:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10376/15423 [8:56:16<4:20:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10377/15423 [8:56:17<4:20:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10377/15423 [8:56:17<4:20:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10378/15423 [8:56:20<4:20:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10378/15423 [8:56:20<4:20:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10379/15423 [8:56:23<4:20:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10379/15423 [8:56:23<4:20:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10380/15423 [8:56:26<4:20:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10380/15423 [8:56:26<4:20:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10381/15423 [8:56:29<4:20:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10381/15423 [8:56:29<4:20:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10382/15423 [8:56:33<4:20:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10382/15423 [8:56:33<4:20:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10383/15423 [8:56:36<4:20:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10383/15423 [8:56:36<4:20:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10384/15423 [8:56:38<4:20:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10384/15423 [8:56:38<4:20:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10385/15423 [8:56:41<4:20:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10385/15423 [8:56:41<4:20:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10386/15423 [8:56:44<4:20:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10386/15423 [8:56:44<4:20:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10387/15423 [8:56:47<4:20:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10387/15423 [8:56:47<4:20:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10388/15423 [8:56:51<4:20:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10388/15423 [8:56:51<4:20:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10389/15423 [8:56:53<4:20:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10389/15423 [8:56:53<4:20:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10390/15423 [8:56:56<4:20:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10390/15423 [8:56:56<4:20:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10391/15423 [8:56:59<4:20:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10391/15423 [8:56:59<4:20:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10392/15423 [8:57:04<4:20:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10392/15423 [8:57:04<4:20:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10393/15423 [8:57:06<4:19:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10393/15423 [8:57:06<4:19:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10394/15423 [8:57:08<4:19:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10394/15423 [8:57:08<4:19:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10395/15423 [8:57:12<4:19:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10395/15423 [8:57:12<4:19:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10396/15423 [8:57:17<4:19:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10396/15423 [8:57:17<4:19:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10397/15423 [8:57:18<4:19:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10397/15423 [8:57:18<4:19:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10398/15423 [8:57:21<4:19:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10398/15423 [8:57:21<4:19:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10399/15423 [8:57:24<4:19:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10399/15423 [8:57:24<4:19:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10400/15423 [8:57:33<4:19:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10400/15423 [8:57:33<4:19:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10401/15423 [8:57:54<4:19:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10401/15423 [8:57:54<4:19:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10402/15423 [8:57:56<4:19:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10402/15423 [8:57:56<4:19:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10403/15423 [8:57:59<4:19:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10403/15423 [8:57:59<4:19:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10404/15423 [8:58:01<4:19:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10404/15423 [8:58:01<4:19:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10405/15423 [8:58:04<4:19:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10405/15423 [8:58:04<4:19:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10406/15423 [8:58:06<4:19:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10406/15423 [8:58:06<4:19:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10407/15423 [8:58:07<4:19:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10407/15423 [8:58:07<4:19:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10408/15423 [8:58:10<4:19:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10408/15423 [8:58:10<4:19:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10409/15423 [8:58:13<4:19:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10409/15423 [8:58:13<4:19:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  67%|▋| 10410/15423 [8:58:15<4:19:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  67%|▋| 10410/15423 [8:58:15<4:19:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10411/15423 [8:58:18<4:19:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10411/15423 [8:58:18<4:19:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10412/15423 [8:58:22<4:19:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10412/15423 [8:58:22<4:19:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10413/15423 [8:58:24<4:19:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10413/15423 [8:58:24<4:19:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10414/15423 [8:58:27<4:18:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10414/15423 [8:58:27<4:18:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10415/15423 [8:58:31<4:18:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10415/15423 [8:58:31<4:18:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10416/15423 [8:58:32<4:18:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10416/15423 [8:58:32<4:18:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10417/15423 [8:58:35<4:18:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10417/15423 [8:58:35<4:18:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10418/15423 [8:58:37<4:18:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10418/15423 [8:58:37<4:18:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10419/15423 [8:58:40<4:18:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10419/15423 [8:58:40<4:18:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10420/15423 [8:58:42<4:18:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10420/15423 [8:58:42<4:18:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10421/15423 [8:58:46<4:18:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10421/15423 [8:58:46<4:18:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10422/15423 [8:58:47<4:18:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10422/15423 [8:58:47<4:18:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10423/15423 [8:58:49<4:18:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10423/15423 [8:58:49<4:18:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10424/15423 [8:58:50<4:18:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10424/15423 [8:58:50<4:18:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10425/15423 [8:58:54<4:18:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10425/15423 [8:58:54<4:18:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10426/15423 [8:58:55<4:18:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10426/15423 [8:58:55<4:18:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10427/15423 [8:58:57<4:18:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10427/15423 [8:58:57<4:18:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10428/15423 [8:59:01<4:18:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10428/15423 [8:59:01<4:18:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10429/15423 [8:59:04<4:18:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10429/15423 [8:59:04<4:18:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10430/15423 [8:59:08<4:18:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10430/15423 [8:59:08<4:18:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10431/15423 [8:59:09<4:18:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10431/15423 [8:59:09<4:18:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10432/15423 [8:59:40<4:18:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10432/15423 [8:59:40<4:18:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10433/15423 [8:59:43<4:18:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10433/15423 [8:59:43<4:18:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10434/15423 [8:59:45<4:18:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10434/15423 [8:59:45<4:18:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10435/15423 [8:59:49<4:18:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10435/15423 [8:59:49<4:18:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10436/15423 [8:59:50<4:17:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10436/15423 [8:59:50<4:17:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10437/15423 [8:59:52<4:17:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10437/15423 [8:59:52<4:17:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10438/15423 [8:59:57<4:17:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10438/15423 [8:59:57<4:17:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10439/15423 [8:59:58<4:17:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10439/15423 [8:59:58<4:17:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10440/15423 [9:00:00<4:17:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10440/15423 [9:00:00<4:17:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10441/15423 [9:00:04<4:17:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10441/15423 [9:00:04<4:17:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10442/15423 [9:00:05<4:17:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10442/15423 [9:00:05<4:17:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10443/15423 [9:00:09<4:17:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10443/15423 [9:00:09<4:17:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10444/15423 [9:00:13<4:17:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10444/15423 [9:00:13<4:17:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10445/15423 [9:00:14<4:17:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10445/15423 [9:00:14<4:17:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10446/15423 [9:00:15<4:17:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10446/15423 [9:00:15<4:17:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10447/15423 [9:00:18<4:17:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10447/15423 [9:00:18<4:17:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10448/15423 [9:00:20<4:17:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10448/15423 [9:00:20<4:17:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10449/15423 [9:00:23<4:17:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10449/15423 [9:00:23<4:17:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10450/15423 [9:00:26<4:17:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10450/15423 [9:00:26<4:17:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10451/15423 [9:00:28<4:17:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10451/15423 [9:00:28<4:17:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10452/15423 [9:00:32<4:17:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10452/15423 [9:00:32<4:17:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10453/15423 [9:00:35<4:17:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10453/15423 [9:00:35<4:17:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10454/15423 [9:00:39<4:16:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10454/15423 [9:00:39<4:16:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10455/15423 [9:00:42<4:16:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10455/15423 [9:00:42<4:16:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10456/15423 [9:00:45<4:16:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10456/15423 [9:00:45<4:16:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10457/15423 [9:00:48<4:16:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10457/15423 [9:00:48<4:16:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10458/15423 [9:00:53<4:16:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10458/15423 [9:00:53<4:16:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10459/15423 [9:00:56<4:16:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10459/15423 [9:00:56<4:16:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10460/15423 [9:00:59<4:16:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10460/15423 [9:00:59<4:16:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10461/15423 [9:01:02<4:16:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10461/15423 [9:01:02<4:16:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10462/15423 [9:01:06<4:16:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10462/15423 [9:01:06<4:16:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10463/15423 [9:01:11<4:16:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10463/15423 [9:01:11<4:16:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10464/15423 [9:01:19<4:16:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10464/15423 [9:01:19<4:16:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10465/15423 [9:01:21<4:16:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10465/15423 [9:01:21<4:16:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10466/15423 [9:01:22<4:16:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10466/15423 [9:01:22<4:16:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10467/15423 [9:01:23<4:16:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10467/15423 [9:01:23<4:16:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10468/15423 [9:01:27<4:16:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10468/15423 [9:01:27<4:16:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10469/15423 [9:01:29<4:16:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10469/15423 [9:01:29<4:16:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10470/15423 [9:01:32<4:16:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10470/15423 [9:01:32<4:16:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10471/15423 [9:01:34<4:16:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10471/15423 [9:01:34<4:16:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10472/15423 [9:01:34<4:16:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10472/15423 [9:01:34<4:16:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10473/15423 [9:01:37<4:15:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10473/15423 [9:01:37<4:15:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10474/15423 [9:01:38<4:15:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10474/15423 [9:01:38<4:15:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10475/15423 [9:01:39<4:15:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10475/15423 [9:01:39<4:15:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10476/15423 [9:01:41<4:15:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10476/15423 [9:01:41<4:15:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10477/15423 [9:01:42<4:15:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10477/15423 [9:01:42<4:15:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10478/15423 [9:01:46<4:15:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10478/15423 [9:01:46<4:15:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10479/15423 [9:01:50<4:15:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10479/15423 [9:01:50<4:15:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10480/15423 [9:01:51<4:15:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10480/15423 [9:01:51<4:15:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10481/15423 [9:01:54<4:15:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10481/15423 [9:01:54<4:15:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10482/15423 [9:01:58<4:15:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10482/15423 [9:01:58<4:15:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10483/15423 [9:01:59<4:15:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10483/15423 [9:01:59<4:15:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10484/15423 [9:02:02<4:15:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10484/15423 [9:02:02<4:15:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10485/15423 [9:02:04<4:15:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10485/15423 [9:02:04<4:15:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10486/15423 [9:02:05<4:15:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10486/15423 [9:02:05<4:15:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10487/15423 [9:02:07<4:15:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10487/15423 [9:02:07<4:15:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10488/15423 [9:02:08<4:15:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10488/15423 [9:02:08<4:15:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10489/15423 [9:02:12<4:15:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10489/15423 [9:02:12<4:15:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10490/15423 [9:02:15<4:15:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10490/15423 [9:02:15<4:15:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10491/15423 [9:02:18<4:14:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10491/15423 [9:02:18<4:14:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10492/15423 [9:02:19<4:14:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10492/15423 [9:02:19<4:14:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10493/15423 [9:02:20<4:14:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10493/15423 [9:02:20<4:14:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10494/15423 [9:02:24<4:14:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10494/15423 [9:02:24<4:14:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10495/15423 [9:02:29<4:14:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10495/15423 [9:02:29<4:14:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10496/15423 [9:03:00<4:14:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10496/15423 [9:03:00<4:14:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10497/15423 [9:03:00<4:14:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10497/15423 [9:03:00<4:14:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10498/15423 [9:03:05<4:14:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10498/15423 [9:03:05<4:14:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10499/15423 [9:03:08<4:14:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10499/15423 [9:03:08<4:14:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10500/15423 [9:03:12<4:14:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10500/15423 [9:03:12<4:14:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10501/15423 [9:03:16<4:14:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10501/15423 [9:03:16<4:14:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10502/15423 [9:03:19<4:14:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10502/15423 [9:03:19<4:14:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10503/15423 [9:03:21<4:14:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10503/15423 [9:03:21<4:14:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10504/15423 [9:03:25<4:14:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10504/15423 [9:03:25<4:14:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10505/15423 [9:03:27<4:14:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10505/15423 [9:03:27<4:14:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10506/15423 [9:03:31<4:14:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10506/15423 [9:03:31<4:14:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10507/15423 [9:03:33<4:14:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10507/15423 [9:03:33<4:14:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10508/15423 [9:03:35<4:14:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10508/15423 [9:03:35<4:14:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10509/15423 [9:03:36<4:14:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10509/15423 [9:03:36<4:14:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10510/15423 [9:03:40<4:14:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10510/15423 [9:03:40<4:14:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10511/15423 [9:03:42<4:14:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10511/15423 [9:03:42<4:14:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10512/15423 [9:03:44<4:14:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10512/15423 [9:03:44<4:14:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10513/15423 [9:03:46<4:13:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10513/15423 [9:03:46<4:13:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10514/15423 [9:03:50<4:13:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10514/15423 [9:03:50<4:13:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10515/15423 [9:03:53<4:13:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10515/15423 [9:03:53<4:13:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10516/15423 [9:03:55<4:13:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10516/15423 [9:03:55<4:13:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10517/15423 [9:03:57<4:13:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10517/15423 [9:03:57<4:13:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10518/15423 [9:04:00<4:13:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10518/15423 [9:04:00<4:13:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10519/15423 [9:04:03<4:13:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10519/15423 [9:04:03<4:13:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10520/15423 [9:04:07<4:13:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10520/15423 [9:04:07<4:13:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10521/15423 [9:04:11<4:13:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10521/15423 [9:04:11<4:13:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10522/15423 [9:04:13<4:13:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10522/15423 [9:04:13<4:13:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10523/15423 [9:04:16<4:13:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10523/15423 [9:04:16<4:13:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10524/15423 [9:04:18<4:13:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10524/15423 [9:04:18<4:13:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10525/15423 [9:04:19<4:13:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10525/15423 [9:04:19<4:13:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10526/15423 [9:04:22<4:13:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10526/15423 [9:04:22<4:13:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10527/15423 [9:04:24<4:13:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10527/15423 [9:04:24<4:13:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10528/15423 [9:04:35<4:13:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10528/15423 [9:04:35<4:13:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10529/15423 [9:04:37<4:13:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10529/15423 [9:04:37<4:13:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10530/15423 [9:04:39<4:13:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10530/15423 [9:04:39<4:13:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10531/15423 [9:04:42<4:13:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10531/15423 [9:04:42<4:13:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10532/15423 [9:04:45<4:12:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10532/15423 [9:04:45<4:12:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10533/15423 [9:04:47<4:12:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10533/15423 [9:04:47<4:12:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10534/15423 [9:04:49<4:12:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10534/15423 [9:04:49<4:12:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10535/15423 [9:04:51<4:12:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10535/15423 [9:04:51<4:12:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10536/15423 [9:04:52<4:12:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10536/15423 [9:04:52<4:12:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10537/15423 [9:04:57<4:12:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10537/15423 [9:04:57<4:12:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10538/15423 [9:04:57<4:12:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10538/15423 [9:04:57<4:12:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10539/15423 [9:05:00<4:12:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10539/15423 [9:05:00<4:12:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10540/15423 [9:05:01<4:12:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10540/15423 [9:05:01<4:12:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10541/15423 [9:05:01<4:12:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10541/15423 [9:05:01<4:12:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10542/15423 [9:05:06<4:12:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10542/15423 [9:05:06<4:12:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10543/15423 [9:05:08<4:12:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10543/15423 [9:05:08<4:12:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10544/15423 [9:05:11<4:12:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10544/15423 [9:05:11<4:12:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10545/15423 [9:05:13<4:12:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10545/15423 [9:05:13<4:12:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10546/15423 [9:05:15<4:12:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10546/15423 [9:05:15<4:12:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10547/15423 [9:05:19<4:12:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10547/15423 [9:05:19<4:12:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10548/15423 [9:05:21<4:12:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10548/15423 [9:05:21<4:12:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10549/15423 [9:05:23<4:11:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10549/15423 [9:05:23<4:11:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10550/15423 [9:05:27<4:11:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10550/15423 [9:05:27<4:11:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10551/15423 [9:05:31<4:11:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10551/15423 [9:05:31<4:11:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10552/15423 [9:05:34<4:11:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10552/15423 [9:05:34<4:11:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10553/15423 [9:05:37<4:11:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10553/15423 [9:05:37<4:11:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10554/15423 [9:05:41<4:11:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10554/15423 [9:05:41<4:11:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10555/15423 [9:05:43<4:11:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10555/15423 [9:05:43<4:11:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10556/15423 [9:05:44<4:11:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10556/15423 [9:05:44<4:11:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10557/15423 [9:05:46<4:11:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10557/15423 [9:05:46<4:11:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10558/15423 [9:05:50<4:11:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10558/15423 [9:05:50<4:11:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10559/15423 [9:05:51<4:11:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10559/15423 [9:05:51<4:11:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10560/15423 [9:06:08<4:11:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10560/15423 [9:06:08<4:11:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10561/15423 [9:06:11<4:11:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10561/15423 [9:06:11<4:11:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10562/15423 [9:06:13<4:11:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10562/15423 [9:06:13<4:11:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10563/15423 [9:06:15<4:11:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10563/15423 [9:06:15<4:11:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  68%|▋| 10564/15423 [9:06:18<4:11:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  68%|▋| 10564/15423 [9:06:18<4:11:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10565/15423 [9:06:22<4:11:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10565/15423 [9:06:22<4:11:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10566/15423 [9:06:25<4:11:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10566/15423 [9:06:25<4:11:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10567/15423 [9:06:27<4:11:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10567/15423 [9:06:27<4:11:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10568/15423 [9:06:29<4:11:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10568/15423 [9:06:29<4:11:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10569/15423 [9:06:30<4:10:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10569/15423 [9:06:30<4:10:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10570/15423 [9:06:32<4:10:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10570/15423 [9:06:32<4:10:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10571/15423 [9:06:36<4:10:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10571/15423 [9:06:36<4:10:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10572/15423 [9:06:40<4:10:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10572/15423 [9:06:40<4:10:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10573/15423 [9:06:41<4:10:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10573/15423 [9:06:41<4:10:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10574/15423 [9:06:43<4:10:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10574/15423 [9:06:43<4:10:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10575/15423 [9:06:48<4:10:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10575/15423 [9:06:48<4:10:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10576/15423 [9:06:49<4:10:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10576/15423 [9:06:49<4:10:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10577/15423 [9:06:53<4:10:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10577/15423 [9:06:53<4:10:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10578/15423 [9:06:55<4:10:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10578/15423 [9:06:55<4:10:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10579/15423 [9:06:57<4:10:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10579/15423 [9:06:57<4:10:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10580/15423 [9:07:01<4:10:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10580/15423 [9:07:01<4:10:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10581/15423 [9:07:03<4:10:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10581/15423 [9:07:03<4:10:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10582/15423 [9:07:05<4:10:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10582/15423 [9:07:05<4:10:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10583/15423 [9:07:06<4:10:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10583/15423 [9:07:06<4:10:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10584/15423 [9:07:10<4:10:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10584/15423 [9:07:10<4:10:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10585/15423 [9:07:14<4:10:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10585/15423 [9:07:14<4:10:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10586/15423 [9:07:16<4:10:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10586/15423 [9:07:16<4:10:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10587/15423 [9:07:20<4:10:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10587/15423 [9:07:20<4:10:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10588/15423 [9:07:24<4:09:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10588/15423 [9:07:24<4:09:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10589/15423 [9:07:26<4:09:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10589/15423 [9:07:26<4:09:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10590/15423 [9:07:28<4:09:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10590/15423 [9:07:28<4:09:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10591/15423 [9:07:29<4:09:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10591/15423 [9:07:29<4:09:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10592/15423 [9:07:47<4:09:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10592/15423 [9:07:47<4:09:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10593/15423 [9:07:49<4:09:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10593/15423 [9:07:49<4:09:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10594/15423 [9:07:53<4:09:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10594/15423 [9:07:53<4:09:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10595/15423 [9:07:57<4:09:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10595/15423 [9:07:57<4:09:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10596/15423 [9:08:00<4:09:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10596/15423 [9:08:00<4:09:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10597/15423 [9:08:02<4:09:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10597/15423 [9:08:02<4:09:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10598/15423 [9:08:03<4:09:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10598/15423 [9:08:03<4:09:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10599/15423 [9:08:05<4:09:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10599/15423 [9:08:05<4:09:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10600/15423 [9:08:09<4:09:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10600/15423 [9:08:09<4:09:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10601/15423 [9:08:12<4:09:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10601/15423 [9:08:12<4:09:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10602/15423 [9:08:15<4:09:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10602/15423 [9:08:15<4:09:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10603/15423 [9:08:17<4:09:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10603/15423 [9:08:17<4:09:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10604/15423 [9:08:19<4:09:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10604/15423 [9:08:19<4:09:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10605/15423 [9:08:22<4:09:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10605/15423 [9:08:22<4:09:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10606/15423 [9:08:24<4:09:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10606/15423 [9:08:24<4:09:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10607/15423 [9:08:28<4:09:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10607/15423 [9:08:28<4:09:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10608/15423 [9:08:32<4:08:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10608/15423 [9:08:32<4:08:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10609/15423 [9:08:36<4:08:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10609/15423 [9:08:36<4:08:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10610/15423 [9:08:37<4:08:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10610/15423 [9:08:37<4:08:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10611/15423 [9:08:39<4:08:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10611/15423 [9:08:39<4:08:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10612/15423 [9:08:43<4:08:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10612/15423 [9:08:43<4:08:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10613/15423 [9:08:47<4:08:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10613/15423 [9:08:47<4:08:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10614/15423 [9:08:49<4:08:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10614/15423 [9:08:49<4:08:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10615/15423 [9:08:52<4:08:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10615/15423 [9:08:52<4:08:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10616/15423 [9:08:54<4:08:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10616/15423 [9:08:54<4:08:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10617/15423 [9:08:55<4:08:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10617/15423 [9:08:55<4:08:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10618/15423 [9:08:59<4:08:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10618/15423 [9:08:59<4:08:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10619/15423 [9:09:02<4:08:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10619/15423 [9:09:02<4:08:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10620/15423 [9:09:04<4:08:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10620/15423 [9:09:04<4:08:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10621/15423 [9:09:07<4:08:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10621/15423 [9:09:07<4:08:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10622/15423 [9:09:10<4:08:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10622/15423 [9:09:10<4:08:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10623/15423 [9:09:11<4:08:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10623/15423 [9:09:11<4:08:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10624/15423 [9:09:23<4:08:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10624/15423 [9:09:23<4:08:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10625/15423 [9:09:26<4:08:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10625/15423 [9:09:26<4:08:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10626/15423 [9:09:28<4:08:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10626/15423 [9:09:28<4:08:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10627/15423 [9:09:30<4:07:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10627/15423 [9:09:30<4:07:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10628/15423 [9:09:32<4:07:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10628/15423 [9:09:32<4:07:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10629/15423 [9:09:36<4:07:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10629/15423 [9:09:36<4:07:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10630/15423 [9:09:37<4:07:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10630/15423 [9:09:37<4:07:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10631/15423 [9:09:37<4:07:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10631/15423 [9:09:37<4:07:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10632/15423 [9:09:39<4:07:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10632/15423 [9:09:39<4:07:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10633/15423 [9:09:42<4:07:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10633/15423 [9:09:42<4:07:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10634/15423 [9:09:43<4:07:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10634/15423 [9:09:43<4:07:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10635/15423 [9:09:47<4:07:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10635/15423 [9:09:47<4:07:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10636/15423 [9:09:48<4:07:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10636/15423 [9:09:48<4:07:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10637/15423 [9:09:49<4:07:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10637/15423 [9:09:49<4:07:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10638/15423 [9:09:52<4:07:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10638/15423 [9:09:52<4:07:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10639/15423 [9:09:53<4:07:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10639/15423 [9:09:53<4:07:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10640/15423 [9:09:56<4:07:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10640/15423 [9:09:56<4:07:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10641/15423 [9:10:00<4:07:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10641/15423 [9:10:00<4:07:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10642/15423 [9:10:00<4:07:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10642/15423 [9:10:00<4:07:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10643/15423 [9:10:05<4:07:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10643/15423 [9:10:05<4:07:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10644/15423 [9:10:06<4:06:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10644/15423 [9:10:06<4:06:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10645/15423 [9:10:10<4:06:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10645/15423 [9:10:10<4:06:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10646/15423 [9:10:11<4:06:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10646/15423 [9:10:11<4:06:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10647/15423 [9:10:15<4:06:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10647/15423 [9:10:15<4:06:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10648/15423 [9:10:19<4:06:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10648/15423 [9:10:19<4:06:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10649/15423 [9:10:22<4:06:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10649/15423 [9:10:22<4:06:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10650/15423 [9:10:23<4:06:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10650/15423 [9:10:23<4:06:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10651/15423 [9:10:27<4:06:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10651/15423 [9:10:27<4:06:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10652/15423 [9:10:28<4:06:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10652/15423 [9:10:28<4:06:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10653/15423 [9:10:30<4:06:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10653/15423 [9:10:30<4:06:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10654/15423 [9:10:33<4:06:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10654/15423 [9:10:33<4:06:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10655/15423 [9:10:37<4:06:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10655/15423 [9:10:37<4:06:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10656/15423 [9:11:06<4:06:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10656/15423 [9:11:06<4:06:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10657/15423 [9:11:07<4:06:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10657/15423 [9:11:07<4:06:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10658/15423 [9:11:08<4:06:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10658/15423 [9:11:08<4:06:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10659/15423 [9:11:10<4:06:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10659/15423 [9:11:10<4:06:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10660/15423 [9:11:13<4:06:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10660/15423 [9:11:13<4:06:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10661/15423 [9:11:17<4:06:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10661/15423 [9:11:17<4:06:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10662/15423 [9:11:21<4:06:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10662/15423 [9:11:21<4:06:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10663/15423 [9:11:23<4:06:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10663/15423 [9:11:23<4:06:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10664/15423 [9:11:27<4:06:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10664/15423 [9:11:27<4:06:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10665/15423 [9:11:30<4:06:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10665/15423 [9:11:30<4:06:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10666/15423 [9:11:32<4:05:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10666/15423 [9:11:32<4:05:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10667/15423 [9:11:34<4:05:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10667/15423 [9:11:34<4:05:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10668/15423 [9:11:36<4:05:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10668/15423 [9:11:36<4:05:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10669/15423 [9:11:37<4:05:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10669/15423 [9:11:37<4:05:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10670/15423 [9:11:41<4:05:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10670/15423 [9:11:41<4:05:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10671/15423 [9:11:42<4:05:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10671/15423 [9:11:42<4:05:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10672/15423 [9:11:45<4:05:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10672/15423 [9:11:45<4:05:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10673/15423 [9:11:47<4:05:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10673/15423 [9:11:47<4:05:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10674/15423 [9:11:50<4:05:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10674/15423 [9:11:50<4:05:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10675/15423 [9:11:53<4:05:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10675/15423 [9:11:53<4:05:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10676/15423 [9:11:55<4:05:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10676/15423 [9:11:55<4:05:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10677/15423 [9:11:58<4:05:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10677/15423 [9:11:58<4:05:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10678/15423 [9:12:01<4:05:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10678/15423 [9:12:01<4:05:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10679/15423 [9:12:04<4:05:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10679/15423 [9:12:04<4:05:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10680/15423 [9:12:06<4:05:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10680/15423 [9:12:06<4:05:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10681/15423 [9:12:06<4:05:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10681/15423 [9:12:06<4:05:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10682/15423 [9:12:09<4:05:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10682/15423 [9:12:09<4:05:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10683/15423 [9:12:10<4:04:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10683/15423 [9:12:10<4:04:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10684/15423 [9:12:14<4:04:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10684/15423 [9:12:14<4:04:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10685/15423 [9:12:15<4:04:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10685/15423 [9:12:15<4:04:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10686/15423 [9:12:20<4:04:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10686/15423 [9:12:20<4:04:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10687/15423 [9:12:23<4:04:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10687/15423 [9:12:23<4:04:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10688/15423 [9:12:38<4:04:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10688/15423 [9:12:38<4:04:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10689/15423 [9:12:40<4:04:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10689/15423 [9:12:40<4:04:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10690/15423 [9:12:41<4:04:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10690/15423 [9:12:41<4:04:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10691/15423 [9:12:44<4:04:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10691/15423 [9:12:44<4:04:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10692/15423 [9:12:47<4:04:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10692/15423 [9:12:47<4:04:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10693/15423 [9:12:50<4:04:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10693/15423 [9:12:50<4:04:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10694/15423 [9:12:52<4:04:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10694/15423 [9:12:52<4:04:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10695/15423 [9:12:57<4:04:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10695/15423 [9:12:57<4:04:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10696/15423 [9:13:01<4:04:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10696/15423 [9:13:01<4:04:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10697/15423 [9:13:03<4:04:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10697/15423 [9:13:03<4:04:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10698/15423 [9:13:07<4:04:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10698/15423 [9:13:07<4:04:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10699/15423 [9:13:11<4:04:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10699/15423 [9:13:11<4:04:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10700/15423 [9:13:15<4:04:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10700/15423 [9:13:15<4:04:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10701/15423 [9:13:16<4:04:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10701/15423 [9:13:16<4:04:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10702/15423 [9:13:21<4:04:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10702/15423 [9:13:21<4:04:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10703/15423 [9:13:22<4:04:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10703/15423 [9:13:22<4:04:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10704/15423 [9:13:27<4:03:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10704/15423 [9:13:27<4:03:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10705/15423 [9:13:28<4:03:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10705/15423 [9:13:28<4:03:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10706/15423 [9:13:30<4:03:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10706/15423 [9:13:30<4:03:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10707/15423 [9:13:33<4:03:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10707/15423 [9:13:33<4:03:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10708/15423 [9:13:34<4:03:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10708/15423 [9:13:34<4:03:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10709/15423 [9:13:35<4:03:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10709/15423 [9:13:35<4:03:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10710/15423 [9:13:37<4:03:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10710/15423 [9:13:37<4:03:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10711/15423 [9:13:39<4:03:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10711/15423 [9:13:39<4:03:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10712/15423 [9:13:42<4:03:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10712/15423 [9:13:42<4:03:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10713/15423 [9:13:45<4:03:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10713/15423 [9:13:45<4:03:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10714/15423 [9:13:47<4:03:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10714/15423 [9:13:47<4:03:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10715/15423 [9:13:50<4:03:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10715/15423 [9:13:50<4:03:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10716/15423 [9:13:52<4:03:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10716/15423 [9:13:52<4:03:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10717/15423 [9:13:56<4:03:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10717/15423 [9:13:56<4:03:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  69%|▋| 10718/15423 [9:13:57<4:03:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  69%|▋| 10718/15423 [9:13:57<4:03:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10719/15423 [9:13:58<4:03:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10719/15423 [9:13:58<4:03:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10720/15423 [9:14:10<4:03:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10720/15423 [9:14:10<4:03:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10721/15423 [9:14:15<4:03:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10721/15423 [9:14:15<4:03:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10722/15423 [9:14:16<4:03:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10722/15423 [9:14:16<4:03:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10723/15423 [9:14:19<4:02:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10723/15423 [9:14:19<4:02:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10724/15423 [9:14:22<4:02:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10724/15423 [9:14:22<4:02:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10725/15423 [9:14:26<4:02:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10725/15423 [9:14:26<4:02:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10726/15423 [9:14:30<4:02:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10726/15423 [9:14:30<4:02:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10727/15423 [9:14:34<4:02:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10727/15423 [9:14:34<4:02:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10728/15423 [9:14:35<4:02:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10728/15423 [9:14:35<4:02:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10729/15423 [9:14:37<4:02:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10729/15423 [9:14:37<4:02:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10730/15423 [9:14:41<4:02:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10730/15423 [9:14:41<4:02:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10731/15423 [9:14:43<4:02:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10731/15423 [9:14:43<4:02:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10732/15423 [9:14:44<4:02:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10732/15423 [9:14:44<4:02:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10733/15423 [9:14:48<4:02:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10733/15423 [9:14:48<4:02:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10734/15423 [9:14:50<4:02:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10734/15423 [9:14:50<4:02:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10735/15423 [9:14:51<4:02:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10735/15423 [9:14:51<4:02:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10736/15423 [9:14:53<4:02:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10736/15423 [9:14:53<4:02:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10737/15423 [9:14:55<4:02:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10737/15423 [9:14:55<4:02:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10738/15423 [9:14:59<4:02:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10738/15423 [9:14:59<4:02:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10739/15423 [9:15:02<4:02:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10739/15423 [9:15:02<4:02:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10740/15423 [9:15:06<4:02:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10740/15423 [9:15:06<4:02:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10741/15423 [9:15:07<4:01:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10741/15423 [9:15:07<4:01:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10742/15423 [9:15:08<4:01:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10742/15423 [9:15:08<4:01:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10743/15423 [9:15:09<4:01:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10743/15423 [9:15:09<4:01:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10744/15423 [9:15:12<4:01:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10744/15423 [9:15:12<4:01:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10745/15423 [9:15:12<4:01:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10745/15423 [9:15:12<4:01:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10746/15423 [9:15:13<4:01:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10746/15423 [9:15:13<4:01:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10747/15423 [9:15:14<4:01:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10747/15423 [9:15:14<4:01:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10748/15423 [9:15:15<4:01:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10748/15423 [9:15:15<4:01:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10749/15423 [9:15:16<4:01:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10749/15423 [9:15:16<4:01:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10750/15423 [9:15:17<4:01:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10750/15423 [9:15:17<4:01:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10751/15423 [9:15:20<4:01:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10751/15423 [9:15:20<4:01:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10752/15423 [9:15:52<4:01:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10752/15423 [9:15:52<4:01:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10753/15423 [9:15:54<4:01:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10753/15423 [9:15:54<4:01:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10754/15423 [9:15:57<4:01:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10754/15423 [9:15:57<4:01:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10755/15423 [9:15:59<4:01:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10755/15423 [9:15:59<4:01:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10756/15423 [9:16:03<4:01:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10756/15423 [9:16:03<4:01:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10757/15423 [9:16:05<4:01:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10757/15423 [9:16:05<4:01:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10758/15423 [9:16:09<4:01:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10758/15423 [9:16:09<4:01:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10759/15423 [9:16:13<4:01:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10759/15423 [9:16:13<4:01:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10760/15423 [9:16:15<4:01:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10760/15423 [9:16:15<4:01:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10761/15423 [9:16:18<4:01:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10761/15423 [9:16:18<4:01:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10762/15423 [9:16:21<4:00:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10762/15423 [9:16:21<4:00:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10763/15423 [9:16:22<4:00:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10763/15423 [9:16:22<4:00:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10764/15423 [9:16:27<4:00:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10764/15423 [9:16:27<4:00:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10765/15423 [9:16:31<4:00:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10765/15423 [9:16:31<4:00:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10766/15423 [9:16:35<4:00:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10766/15423 [9:16:35<4:00:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10767/15423 [9:16:38<4:00:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10767/15423 [9:16:38<4:00:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10768/15423 [9:16:41<4:00:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10768/15423 [9:16:41<4:00:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10769/15423 [9:16:43<4:00:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10769/15423 [9:16:43<4:00:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10770/15423 [9:16:43<4:00:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10770/15423 [9:16:43<4:00:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10771/15423 [9:16:46<4:00:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10771/15423 [9:16:46<4:00:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10772/15423 [9:16:47<4:00:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10772/15423 [9:16:47<4:00:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10773/15423 [9:16:51<4:00:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10773/15423 [9:16:51<4:00:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10774/15423 [9:16:53<4:00:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10774/15423 [9:16:53<4:00:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10775/15423 [9:16:56<4:00:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10775/15423 [9:16:56<4:00:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10776/15423 [9:17:00<4:00:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10776/15423 [9:17:00<4:00:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10777/15423 [9:17:04<4:00:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10777/15423 [9:17:04<4:00:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10778/15423 [9:17:08<4:00:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10778/15423 [9:17:08<4:00:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10779/15423 [9:17:10<4:00:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10779/15423 [9:17:10<4:00:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10780/15423 [9:17:13<4:00:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10780/15423 [9:17:13<4:00:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10781/15423 [9:17:15<3:59:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10781/15423 [9:17:15<3:59:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10782/15423 [9:17:17<3:59:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10782/15423 [9:17:17<3:59:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10783/15423 [9:17:19<3:59:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10783/15423 [9:17:19<3:59:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10784/15423 [9:17:30<3:59:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10784/15423 [9:17:30<3:59:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10785/15423 [9:17:32<3:59:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10785/15423 [9:17:32<3:59:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10786/15423 [9:17:35<3:59:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10786/15423 [9:17:35<3:59:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10787/15423 [9:17:37<3:59:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10787/15423 [9:17:37<3:59:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10788/15423 [9:17:39<3:59:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10788/15423 [9:17:39<3:59:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10789/15423 [9:17:40<3:59:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10789/15423 [9:17:40<3:59:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10790/15423 [9:17:45<3:59:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10790/15423 [9:17:45<3:59:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10791/15423 [9:17:47<3:59:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10791/15423 [9:17:47<3:59:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10792/15423 [9:17:49<3:59:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10792/15423 [9:17:49<3:59:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10793/15423 [9:17:50<3:59:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10793/15423 [9:17:50<3:59:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10794/15423 [9:17:53<3:59:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10794/15423 [9:17:53<3:59:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10795/15423 [9:17:57<3:59:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10795/15423 [9:17:57<3:59:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10796/15423 [9:18:01<3:59:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10796/15423 [9:18:01<3:59:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10797/15423 [9:18:05<3:59:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10797/15423 [9:18:05<3:59:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10798/15423 [9:18:07<3:59:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10798/15423 [9:18:07<3:59:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10799/15423 [9:18:11<3:59:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10799/15423 [9:18:11<3:59:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10800/15423 [9:18:12<3:58:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10800/15423 [9:18:12<3:58:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10801/15423 [9:18:13<3:58:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10801/15423 [9:18:13<3:58:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10802/15423 [9:18:17<3:58:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10802/15423 [9:18:17<3:58:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10803/15423 [9:18:19<3:58:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10803/15423 [9:18:19<3:58:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10804/15423 [9:18:22<3:58:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10804/15423 [9:18:22<3:58:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10805/15423 [9:18:26<3:58:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10805/15423 [9:18:26<3:58:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10806/15423 [9:18:29<3:58:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10806/15423 [9:18:29<3:58:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10807/15423 [9:18:30<3:58:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10807/15423 [9:18:30<3:58:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10808/15423 [9:18:32<3:58:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10808/15423 [9:18:32<3:58:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10809/15423 [9:18:35<3:58:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10809/15423 [9:18:35<3:58:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10810/15423 [9:18:37<3:58:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10810/15423 [9:18:37<3:58:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10811/15423 [9:18:40<3:58:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10811/15423 [9:18:40<3:58:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10812/15423 [9:18:44<3:58:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10812/15423 [9:18:44<3:58:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10813/15423 [9:18:45<3:58:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10813/15423 [9:18:45<3:58:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10814/15423 [9:18:46<3:58:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10814/15423 [9:18:46<3:58:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10815/15423 [9:18:50<3:58:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10815/15423 [9:18:50<3:58:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10816/15423 [9:19:09<3:58:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10816/15423 [9:19:09<3:58:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10817/15423 [9:19:12<3:58:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10817/15423 [9:19:12<3:58:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10818/15423 [9:19:12<3:58:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10818/15423 [9:19:12<3:58:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10819/15423 [9:19:16<3:57:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10819/15423 [9:19:16<3:57:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10820/15423 [9:19:16<3:57:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10820/15423 [9:19:16<3:57:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10821/15423 [9:19:20<3:57:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10821/15423 [9:19:20<3:57:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10822/15423 [9:19:22<3:57:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10822/15423 [9:19:22<3:57:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10823/15423 [9:19:23<3:57:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10823/15423 [9:19:23<3:57:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10824/15423 [9:19:27<3:57:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10824/15423 [9:19:27<3:57:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10825/15423 [9:19:28<3:57:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10825/15423 [9:19:28<3:57:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10826/15423 [9:19:32<3:57:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10826/15423 [9:19:32<3:57:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10827/15423 [9:19:34<3:57:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10827/15423 [9:19:34<3:57:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10828/15423 [9:19:35<3:57:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10828/15423 [9:19:35<3:57:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10829/15423 [9:19:38<3:57:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10829/15423 [9:19:38<3:57:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10830/15423 [9:19:40<3:57:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10830/15423 [9:19:40<3:57:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10831/15423 [9:19:41<3:57:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10831/15423 [9:19:41<3:57:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10832/15423 [9:19:43<3:57:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10832/15423 [9:19:43<3:57:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10833/15423 [9:19:46<3:57:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10833/15423 [9:19:46<3:57:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10834/15423 [9:19:47<3:57:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10834/15423 [9:19:47<3:57:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10835/15423 [9:19:50<3:57:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10835/15423 [9:19:50<3:57:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10836/15423 [9:19:52<3:57:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10836/15423 [9:19:52<3:57:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10837/15423 [9:19:54<3:56:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10837/15423 [9:19:54<3:56:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10838/15423 [9:19:58<3:56:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10838/15423 [9:19:58<3:56:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10839/15423 [9:20:00<3:56:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10839/15423 [9:20:00<3:56:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10840/15423 [9:20:02<3:56:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10840/15423 [9:20:02<3:56:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10841/15423 [9:20:02<3:56:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10841/15423 [9:20:02<3:56:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10842/15423 [9:20:03<3:56:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10842/15423 [9:20:03<3:56:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10843/15423 [9:20:07<3:56:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10843/15423 [9:20:07<3:56:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10844/15423 [9:20:11<3:56:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10844/15423 [9:20:11<3:56:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10845/15423 [9:20:14<3:56:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10845/15423 [9:20:14<3:56:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10846/15423 [9:20:16<3:56:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10846/15423 [9:20:16<3:56:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10847/15423 [9:20:20<3:56:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10847/15423 [9:20:20<3:56:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10848/15423 [9:20:46<3:56:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10848/15423 [9:20:46<3:56:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10849/15423 [9:20:50<3:56:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10849/15423 [9:20:50<3:56:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10850/15423 [9:20:55<3:56:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10850/15423 [9:20:55<3:56:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10851/15423 [9:20:55<3:56:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10851/15423 [9:20:55<3:56:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10852/15423 [9:20:57<3:56:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10852/15423 [9:20:57<3:56:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10853/15423 [9:20:58<3:56:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10853/15423 [9:20:58<3:56:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10854/15423 [9:21:02<3:56:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10854/15423 [9:21:02<3:56:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10855/15423 [9:21:06<3:56:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10855/15423 [9:21:06<3:56:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10856/15423 [9:21:09<3:56:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10856/15423 [9:21:09<3:56:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10857/15423 [9:21:12<3:56:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10857/15423 [9:21:12<3:56:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10858/15423 [9:21:14<3:55:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10858/15423 [9:21:14<3:55:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10859/15423 [9:21:16<3:55:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10859/15423 [9:21:16<3:55:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10860/15423 [9:21:18<3:55:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10860/15423 [9:21:18<3:55:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10861/15423 [9:21:19<3:55:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10861/15423 [9:21:19<3:55:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10862/15423 [9:21:24<3:55:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10862/15423 [9:21:24<3:55:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10863/15423 [9:21:24<3:55:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10863/15423 [9:21:24<3:55:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10864/15423 [9:21:25<3:55:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10864/15423 [9:21:25<3:55:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10865/15423 [9:21:28<3:55:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10865/15423 [9:21:28<3:55:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10866/15423 [9:21:31<3:55:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10866/15423 [9:21:31<3:55:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10867/15423 [9:21:34<3:55:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10867/15423 [9:21:34<3:55:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10868/15423 [9:21:36<3:55:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10868/15423 [9:21:36<3:55:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10869/15423 [9:21:39<3:55:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10869/15423 [9:21:39<3:55:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10870/15423 [9:21:43<3:55:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10870/15423 [9:21:43<3:55:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10871/15423 [9:21:45<3:55:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10871/15423 [9:21:45<3:55:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10872/15423 [9:21:47<3:55:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10872/15423 [9:21:47<3:55:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  70%|▋| 10873/15423 [9:21:50<3:55:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  70%|▋| 10873/15423 [9:21:50<3:55:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10874/15423 [9:21:54<3:55:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10874/15423 [9:21:54<3:55:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10875/15423 [9:21:56<3:55:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10875/15423 [9:21:56<3:55:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10876/15423 [9:21:58<3:54:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10876/15423 [9:21:58<3:54:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10877/15423 [9:22:00<3:54:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10877/15423 [9:22:00<3:54:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10878/15423 [9:22:02<3:54:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10878/15423 [9:22:02<3:54:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10879/15423 [9:22:07<3:54:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10879/15423 [9:22:07<3:54:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10880/15423 [9:22:21<3:54:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10880/15423 [9:22:21<3:54:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10881/15423 [9:22:22<3:54:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10881/15423 [9:22:22<3:54:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10882/15423 [9:22:24<3:54:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10882/15423 [9:22:24<3:54:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10883/15423 [9:22:24<3:54:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10883/15423 [9:22:24<3:54:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10884/15423 [9:22:29<3:54:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10884/15423 [9:22:29<3:54:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10885/15423 [9:22:31<3:54:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10885/15423 [9:22:31<3:54:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10886/15423 [9:22:34<3:54:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10886/15423 [9:22:34<3:54:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10887/15423 [9:22:35<3:54:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10887/15423 [9:22:35<3:54:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10888/15423 [9:22:39<3:54:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10888/15423 [9:22:39<3:54:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10889/15423 [9:22:43<3:54:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10889/15423 [9:22:43<3:54:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10890/15423 [9:22:47<3:54:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10890/15423 [9:22:47<3:54:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10891/15423 [9:22:49<3:54:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10891/15423 [9:22:49<3:54:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10892/15423 [9:22:51<3:54:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10892/15423 [9:22:51<3:54:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10893/15423 [9:22:54<3:54:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10893/15423 [9:22:54<3:54:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10894/15423 [9:22:58<3:54:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10894/15423 [9:22:58<3:54:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10895/15423 [9:23:00<3:53:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10895/15423 [9:23:00<3:53:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10896/15423 [9:23:04<3:53:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10896/15423 [9:23:04<3:53:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10897/15423 [9:23:07<3:53:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10897/15423 [9:23:07<3:53:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10898/15423 [9:23:11<3:53:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10898/15423 [9:23:11<3:53:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10899/15423 [9:23:12<3:53:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10899/15423 [9:23:12<3:53:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10900/15423 [9:23:16<3:53:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10900/15423 [9:23:16<3:53:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10901/15423 [9:23:20<3:53:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10901/15423 [9:23:20<3:53:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10902/15423 [9:23:22<3:53:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10902/15423 [9:23:22<3:53:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10903/15423 [9:23:23<3:53:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10903/15423 [9:23:23<3:53:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10904/15423 [9:23:26<3:53:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10904/15423 [9:23:26<3:53:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10905/15423 [9:23:28<3:53:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10905/15423 [9:23:28<3:53:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10906/15423 [9:23:30<3:53:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10906/15423 [9:23:30<3:53:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10907/15423 [9:23:33<3:53:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10907/15423 [9:23:33<3:53:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10908/15423 [9:23:34<3:53:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10908/15423 [9:23:34<3:53:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10909/15423 [9:23:38<3:53:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10909/15423 [9:23:38<3:53:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10910/15423 [9:23:39<3:53:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10910/15423 [9:23:39<3:53:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10911/15423 [9:23:40<3:53:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10911/15423 [9:23:40<3:53:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10912/15423 [9:23:56<3:53:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10912/15423 [9:23:56<3:53:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10913/15423 [9:23:58<3:53:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10913/15423 [9:23:58<3:53:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10914/15423 [9:24:02<3:53:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10914/15423 [9:24:02<3:53:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10915/15423 [9:24:04<3:52:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10915/15423 [9:24:04<3:52:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10916/15423 [9:24:06<3:52:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10916/15423 [9:24:06<3:52:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10917/15423 [9:24:11<3:52:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10917/15423 [9:24:11<3:52:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10918/15423 [9:24:13<3:52:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10918/15423 [9:24:13<3:52:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10919/15423 [9:24:15<3:52:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10919/15423 [9:24:15<3:52:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10920/15423 [9:24:16<3:52:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10920/15423 [9:24:16<3:52:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10921/15423 [9:24:18<3:52:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10921/15423 [9:24:18<3:52:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10922/15423 [9:24:21<3:52:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10922/15423 [9:24:21<3:52:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10923/15423 [9:24:22<3:52:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10923/15423 [9:24:22<3:52:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10924/15423 [9:24:24<3:52:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10924/15423 [9:24:24<3:52:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10925/15423 [9:24:26<3:52:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10925/15423 [9:24:26<3:52:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10926/15423 [9:24:29<3:52:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10926/15423 [9:24:29<3:52:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10927/15423 [9:24:32<3:52:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10927/15423 [9:24:32<3:52:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10928/15423 [9:24:36<3:52:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10928/15423 [9:24:36<3:52:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10929/15423 [9:24:39<3:52:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10929/15423 [9:24:39<3:52:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10930/15423 [9:24:40<3:52:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10930/15423 [9:24:40<3:52:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10931/15423 [9:24:43<3:52:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10931/15423 [9:24:43<3:52:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10932/15423 [9:24:47<3:52:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10932/15423 [9:24:47<3:52:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10933/15423 [9:24:49<3:51:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10933/15423 [9:24:49<3:51:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10934/15423 [9:24:50<3:51:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10934/15423 [9:24:50<3:51:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10935/15423 [9:24:52<3:51:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10935/15423 [9:24:52<3:51:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10936/15423 [9:24:56<3:51:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10936/15423 [9:24:56<3:51:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10937/15423 [9:24:58<3:51:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10937/15423 [9:24:58<3:51:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10938/15423 [9:25:00<3:51:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10938/15423 [9:25:00<3:51:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10939/15423 [9:25:01<3:51:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10939/15423 [9:25:01<3:51:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10940/15423 [9:25:02<3:51:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10940/15423 [9:25:02<3:51:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10941/15423 [9:25:05<3:51:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10941/15423 [9:25:05<3:51:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10942/15423 [9:25:08<3:51:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10942/15423 [9:25:08<3:51:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10943/15423 [9:25:12<3:51:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10943/15423 [9:25:12<3:51:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10944/15423 [9:25:30<3:51:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10944/15423 [9:25:30<3:51:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10945/15423 [9:25:34<3:51:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10945/15423 [9:25:34<3:51:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10946/15423 [9:25:38<3:51:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10946/15423 [9:25:38<3:51:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10947/15423 [9:25:41<3:51:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10947/15423 [9:25:41<3:51:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10948/15423 [9:25:44<3:51:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10948/15423 [9:25:44<3:51:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10949/15423 [9:25:47<3:51:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10949/15423 [9:25:47<3:51:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10950/15423 [9:25:50<3:51:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10950/15423 [9:25:50<3:51:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10951/15423 [9:25:53<3:51:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10951/15423 [9:25:53<3:51:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10952/15423 [9:25:56<3:51:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10952/15423 [9:25:56<3:51:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10953/15423 [9:26:00<3:50:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10953/15423 [9:26:00<3:50:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10954/15423 [9:26:04<3:50:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10954/15423 [9:26:04<3:50:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10955/15423 [9:26:07<3:50:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10955/15423 [9:26:07<3:50:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10956/15423 [9:26:11<3:50:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10956/15423 [9:26:11<3:50:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10957/15423 [9:26:13<3:50:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10957/15423 [9:26:13<3:50:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10958/15423 [9:26:16<3:50:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10958/15423 [9:26:16<3:50:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10959/15423 [9:26:21<3:50:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10959/15423 [9:26:21<3:50:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10960/15423 [9:26:25<3:50:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10960/15423 [9:26:25<3:50:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10961/15423 [9:26:29<3:50:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10961/15423 [9:26:29<3:50:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10962/15423 [9:26:30<3:50:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10962/15423 [9:26:30<3:50:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10963/15423 [9:26:33<3:50:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10963/15423 [9:26:33<3:50:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10964/15423 [9:26:37<3:50:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10964/15423 [9:26:37<3:50:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10965/15423 [9:26:41<3:50:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10965/15423 [9:26:41<3:50:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10966/15423 [9:26:43<3:50:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10966/15423 [9:26:43<3:50:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10967/15423 [9:26:48<3:50:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10967/15423 [9:26:48<3:50:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10968/15423 [9:26:49<3:50:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10968/15423 [9:26:49<3:50:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10969/15423 [9:26:50<3:50:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10969/15423 [9:26:50<3:50:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10970/15423 [9:26:51<3:50:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10970/15423 [9:26:51<3:50:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10971/15423 [9:26:54<3:50:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10971/15423 [9:26:54<3:50:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10972/15423 [9:26:57<3:49:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10972/15423 [9:26:57<3:49:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10973/15423 [9:27:01<3:49:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10973/15423 [9:27:01<3:49:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10974/15423 [9:27:04<3:49:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10974/15423 [9:27:04<3:49:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10975/15423 [9:27:08<3:49:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10975/15423 [9:27:08<3:49:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10976/15423 [9:27:18<3:49:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10976/15423 [9:27:18<3:49:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10977/15423 [9:27:20<3:49:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10977/15423 [9:27:20<3:49:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10978/15423 [9:27:22<3:49:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10978/15423 [9:27:22<3:49:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10979/15423 [9:27:26<3:49:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10979/15423 [9:27:26<3:49:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10980/15423 [9:27:27<3:49:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10980/15423 [9:27:27<3:49:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10981/15423 [9:27:29<3:49:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10981/15423 [9:27:29<3:49:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10982/15423 [9:27:30<3:49:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10982/15423 [9:27:30<3:49:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10983/15423 [9:27:32<3:49:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10983/15423 [9:27:32<3:49:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10984/15423 [9:27:33<3:49:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10984/15423 [9:27:33<3:49:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10985/15423 [9:27:34<3:49:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10985/15423 [9:27:34<3:49:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10986/15423 [9:27:38<3:49:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10986/15423 [9:27:38<3:49:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10987/15423 [9:27:43<3:49:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10987/15423 [9:27:43<3:49:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10988/15423 [9:27:47<3:49:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10988/15423 [9:27:47<3:49:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10989/15423 [9:27:51<3:49:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10989/15423 [9:27:51<3:49:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10990/15423 [9:27:55<3:49:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10990/15423 [9:27:55<3:49:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10991/15423 [9:27:57<3:49:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10991/15423 [9:27:57<3:49:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10992/15423 [9:28:02<3:48:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10992/15423 [9:28:02<3:48:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10993/15423 [9:28:06<3:48:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10993/15423 [9:28:06<3:48:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10994/15423 [9:28:08<3:48:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10994/15423 [9:28:08<3:48:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10995/15423 [9:28:12<3:48:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10995/15423 [9:28:12<3:48:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10996/15423 [9:28:17<3:48:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10996/15423 [9:28:17<3:48:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10997/15423 [9:28:18<3:48:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10997/15423 [9:28:18<3:48:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10998/15423 [9:28:20<3:48:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10998/15423 [9:28:20<3:48:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 10999/15423 [9:28:21<3:48:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 10999/15423 [9:28:21<3:48:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11000/15423 [9:28:22<3:48:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11000/15423 [9:28:22<3:48:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11001/15423 [9:28:27<3:48:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11001/15423 [9:28:27<3:48:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11002/15423 [9:28:30<3:48:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11002/15423 [9:28:30<3:48:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11003/15423 [9:28:33<3:48:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11003/15423 [9:28:33<3:48:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11004/15423 [9:28:36<3:48:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11004/15423 [9:28:36<3:48:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11005/15423 [9:28:38<3:48:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11005/15423 [9:28:38<3:48:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11006/15423 [9:28:43<3:48:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11006/15423 [9:28:43<3:48:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11007/15423 [9:28:47<3:48:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11007/15423 [9:28:47<3:48:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11008/15423 [9:28:55<3:48:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11008/15423 [9:28:55<3:48:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11009/15423 [9:28:59<3:48:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11009/15423 [9:28:59<3:48:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11010/15423 [9:29:02<3:48:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11010/15423 [9:29:02<3:48:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11011/15423 [9:29:03<3:48:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11011/15423 [9:29:03<3:48:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11012/15423 [9:29:07<3:47:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11012/15423 [9:29:07<3:47:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11013/15423 [9:29:08<3:47:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11013/15423 [9:29:08<3:47:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11014/15423 [9:29:12<3:47:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11014/15423 [9:29:12<3:47:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11015/15423 [9:29:17<3:47:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11015/15423 [9:29:17<3:47:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11016/15423 [9:29:21<3:47:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11016/15423 [9:29:21<3:47:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11017/15423 [9:29:23<3:47:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11017/15423 [9:29:23<3:47:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11018/15423 [9:29:24<3:47:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11018/15423 [9:29:24<3:47:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11019/15423 [9:29:27<3:47:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11019/15423 [9:29:27<3:47:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11020/15423 [9:29:29<3:47:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11020/15423 [9:29:29<3:47:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11021/15423 [9:29:33<3:47:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11021/15423 [9:29:33<3:47:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11022/15423 [9:29:35<3:47:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11022/15423 [9:29:35<3:47:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11023/15423 [9:29:36<3:47:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11023/15423 [9:29:36<3:47:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11024/15423 [9:29:37<3:47:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11024/15423 [9:29:37<3:47:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11025/15423 [9:29:41<3:47:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11025/15423 [9:29:41<3:47:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11026/15423 [9:29:43<3:47:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11026/15423 [9:29:43<3:47:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  71%|▋| 11027/15423 [9:29:47<3:47:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  71%|▋| 11027/15423 [9:29:47<3:47:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11028/15423 [9:29:49<3:47:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11028/15423 [9:29:49<3:47:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11029/15423 [9:29:50<3:47:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11029/15423 [9:29:50<3:47:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11030/15423 [9:29:52<3:46:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11030/15423 [9:29:52<3:46:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11031/15423 [9:29:53<3:46:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11031/15423 [9:29:53<3:46:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11032/15423 [9:29:55<3:46:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11032/15423 [9:29:55<3:46:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11033/15423 [9:29:57<3:46:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11033/15423 [9:29:57<3:46:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11034/15423 [9:30:01<3:46:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11034/15423 [9:30:01<3:46:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11035/15423 [9:30:04<3:46:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11035/15423 [9:30:04<3:46:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11036/15423 [9:30:05<3:46:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11036/15423 [9:30:05<3:46:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11037/15423 [9:30:10<3:46:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11037/15423 [9:30:10<3:46:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11038/15423 [9:30:11<3:46:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11038/15423 [9:30:11<3:46:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11039/15423 [9:30:13<3:46:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11039/15423 [9:30:13<3:46:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11040/15423 [9:30:30<3:46:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11040/15423 [9:30:30<3:46:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11041/15423 [9:30:32<3:46:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11041/15423 [9:30:32<3:46:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11042/15423 [9:30:33<3:46:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11042/15423 [9:30:33<3:46:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11043/15423 [9:30:35<3:46:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11043/15423 [9:30:35<3:46:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11044/15423 [9:30:39<3:46:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11044/15423 [9:30:39<3:46:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11045/15423 [9:30:43<3:46:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11045/15423 [9:30:43<3:46:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11046/15423 [9:30:44<3:46:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11046/15423 [9:30:44<3:46:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11047/15423 [9:30:48<3:46:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11047/15423 [9:30:48<3:46:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11048/15423 [9:30:52<3:46:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11048/15423 [9:30:52<3:46:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11049/15423 [9:30:53<3:46:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11049/15423 [9:30:53<3:46:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11050/15423 [9:30:57<3:45:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11050/15423 [9:30:57<3:45:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11051/15423 [9:30:58<3:45:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11051/15423 [9:30:58<3:45:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11052/15423 [9:30:59<3:45:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11052/15423 [9:30:59<3:45:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11053/15423 [9:31:01<3:45:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11053/15423 [9:31:01<3:45:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11054/15423 [9:31:05<3:45:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11054/15423 [9:31:05<3:45:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11055/15423 [9:31:05<3:45:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11055/15423 [9:31:05<3:45:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11056/15423 [9:31:07<3:45:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11056/15423 [9:31:07<3:45:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11057/15423 [9:31:09<3:45:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11057/15423 [9:31:09<3:45:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11058/15423 [9:31:12<3:45:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11058/15423 [9:31:12<3:45:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11059/15423 [9:31:12<3:45:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11059/15423 [9:31:12<3:45:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11060/15423 [9:31:14<3:45:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11060/15423 [9:31:14<3:45:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11061/15423 [9:31:15<3:45:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11061/15423 [9:31:15<3:45:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11062/15423 [9:31:19<3:45:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11062/15423 [9:31:19<3:45:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11063/15423 [9:31:21<3:45:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11063/15423 [9:31:21<3:45:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11064/15423 [9:31:24<3:45:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11064/15423 [9:31:24<3:45:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11065/15423 [9:31:26<3:45:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11065/15423 [9:31:26<3:45:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11066/15423 [9:31:30<3:45:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11066/15423 [9:31:30<3:45:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11067/15423 [9:31:33<3:44:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11067/15423 [9:31:33<3:44:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11068/15423 [9:31:37<3:44:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11068/15423 [9:31:37<3:44:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11069/15423 [9:31:38<3:44:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11069/15423 [9:31:38<3:44:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11070/15423 [9:31:42<3:44:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11070/15423 [9:31:42<3:44:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11071/15423 [9:31:43<3:44:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11071/15423 [9:31:43<3:44:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11072/15423 [9:32:07<3:44:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11072/15423 [9:32:07<3:44:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11073/15423 [9:32:11<3:44:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11073/15423 [9:32:11<3:44:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11074/15423 [9:32:14<3:44:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11074/15423 [9:32:14<3:44:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11075/15423 [9:32:18<3:44:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11075/15423 [9:32:18<3:44:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11076/15423 [9:32:21<3:44:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11076/15423 [9:32:21<3:44:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11077/15423 [9:32:24<3:44:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11077/15423 [9:32:24<3:44:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11078/15423 [9:32:28<3:44:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11078/15423 [9:32:28<3:44:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11079/15423 [9:32:30<3:44:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11079/15423 [9:32:30<3:44:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11080/15423 [9:32:31<3:44:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11080/15423 [9:32:31<3:44:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11081/15423 [9:32:34<3:44:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11081/15423 [9:32:34<3:44:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11082/15423 [9:32:39<3:44:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11082/15423 [9:32:39<3:44:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11083/15423 [9:32:43<3:44:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11083/15423 [9:32:43<3:44:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11084/15423 [9:32:47<3:44:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11084/15423 [9:32:47<3:44:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11085/15423 [9:32:51<3:44:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11085/15423 [9:32:51<3:44:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11086/15423 [9:32:55<3:44:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11086/15423 [9:32:55<3:44:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11087/15423 [9:32:59<3:44:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11087/15423 [9:32:59<3:44:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11088/15423 [9:33:03<3:44:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11088/15423 [9:33:03<3:44:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11089/15423 [9:33:04<3:43:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11089/15423 [9:33:04<3:43:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11090/15423 [9:33:05<3:43:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11090/15423 [9:33:05<3:43:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11091/15423 [9:33:09<3:43:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11091/15423 [9:33:09<3:43:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11092/15423 [9:33:11<3:43:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11092/15423 [9:33:11<3:43:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11093/15423 [9:33:13<3:43:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11093/15423 [9:33:13<3:43:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11094/15423 [9:33:15<3:43:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11094/15423 [9:33:15<3:43:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11095/15423 [9:33:17<3:43:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11095/15423 [9:33:17<3:43:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11096/15423 [9:33:21<3:43:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11096/15423 [9:33:21<3:43:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11097/15423 [9:33:24<3:43:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11097/15423 [9:33:24<3:43:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11098/15423 [9:33:27<3:43:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11098/15423 [9:33:27<3:43:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11099/15423 [9:33:31<3:43:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11099/15423 [9:33:31<3:43:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11100/15423 [9:33:33<3:43:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11100/15423 [9:33:33<3:43:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11101/15423 [9:33:34<3:43:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11101/15423 [9:33:34<3:43:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11102/15423 [9:33:38<3:43:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11102/15423 [9:33:38<3:43:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11103/15423 [9:33:40<3:43:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11103/15423 [9:33:40<3:43:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11104/15423 [9:33:50<3:43:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11104/15423 [9:33:50<3:43:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11105/15423 [9:33:54<3:43:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11105/15423 [9:33:54<3:43:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11106/15423 [9:33:56<3:43:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11106/15423 [9:33:56<3:43:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11107/15423 [9:33:58<3:43:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11107/15423 [9:33:58<3:43:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11108/15423 [9:34:02<3:42:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11108/15423 [9:34:02<3:42:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11109/15423 [9:34:03<3:42:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11109/15423 [9:34:03<3:42:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11110/15423 [9:34:08<3:42:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11110/15423 [9:34:08<3:42:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11111/15423 [9:34:11<3:42:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11111/15423 [9:34:11<3:42:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11112/15423 [9:34:15<3:42:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11112/15423 [9:34:15<3:42:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11113/15423 [9:34:19<3:42:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11113/15423 [9:34:19<3:42:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11114/15423 [9:34:21<3:42:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11114/15423 [9:34:21<3:42:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11115/15423 [9:34:24<3:42:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11115/15423 [9:34:24<3:42:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11116/15423 [9:34:26<3:42:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11116/15423 [9:34:26<3:42:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11117/15423 [9:34:29<3:42:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11117/15423 [9:34:29<3:42:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11118/15423 [9:34:32<3:42:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11118/15423 [9:34:32<3:42:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11119/15423 [9:34:36<3:42:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11119/15423 [9:34:36<3:42:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11120/15423 [9:34:39<3:42:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11120/15423 [9:34:39<3:42:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11121/15423 [9:34:41<3:42:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11121/15423 [9:34:41<3:42:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11122/15423 [9:34:46<3:42:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11122/15423 [9:34:46<3:42:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11123/15423 [9:34:47<3:42:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11123/15423 [9:34:47<3:42:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11124/15423 [9:34:48<3:42:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11124/15423 [9:34:48<3:42:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11125/15423 [9:34:50<3:42:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11125/15423 [9:34:50<3:42:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11126/15423 [9:34:55<3:42:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11126/15423 [9:34:55<3:42:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11127/15423 [9:34:59<3:41:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11127/15423 [9:34:59<3:41:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11128/15423 [9:35:02<3:41:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11128/15423 [9:35:02<3:41:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11129/15423 [9:35:06<3:41:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11129/15423 [9:35:06<3:41:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11130/15423 [9:35:07<3:41:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11130/15423 [9:35:07<3:41:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11131/15423 [9:35:08<3:41:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11131/15423 [9:35:08<3:41:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11132/15423 [9:35:11<3:41:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11132/15423 [9:35:11<3:41:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11133/15423 [9:35:15<3:41:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11133/15423 [9:35:15<3:41:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11134/15423 [9:35:18<3:41:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11134/15423 [9:35:18<3:41:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11135/15423 [9:35:20<3:41:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11135/15423 [9:35:20<3:41:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11136/15423 [9:35:31<3:41:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11136/15423 [9:35:31<3:41:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11137/15423 [9:35:32<3:41:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11137/15423 [9:35:32<3:41:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11138/15423 [9:35:35<3:41:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11138/15423 [9:35:35<3:41:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11139/15423 [9:35:39<3:41:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11139/15423 [9:35:39<3:41:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11140/15423 [9:35:40<3:41:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11140/15423 [9:35:40<3:41:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11141/15423 [9:35:41<3:41:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11141/15423 [9:35:41<3:41:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11142/15423 [9:35:43<3:41:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11142/15423 [9:35:43<3:41:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11143/15423 [9:35:44<3:41:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11143/15423 [9:35:44<3:41:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11144/15423 [9:35:48<3:41:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11144/15423 [9:35:48<3:41:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11145/15423 [9:35:51<3:41:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11145/15423 [9:35:51<3:41:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11146/15423 [9:35:51<3:40:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11146/15423 [9:35:51<3:40:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11147/15423 [9:35:56<3:40:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11147/15423 [9:35:56<3:40:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11148/15423 [9:35:58<3:40:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11148/15423 [9:35:58<3:40:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11149/15423 [9:36:02<3:40:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11149/15423 [9:36:02<3:40:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11150/15423 [9:36:03<3:40:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11150/15423 [9:36:03<3:40:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11151/15423 [9:36:08<3:40:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11151/15423 [9:36:08<3:40:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11152/15423 [9:36:10<3:40:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11152/15423 [9:36:10<3:40:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11153/15423 [9:36:11<3:40:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11153/15423 [9:36:11<3:40:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11154/15423 [9:36:12<3:40:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11154/15423 [9:36:12<3:40:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11155/15423 [9:36:13<3:40:28,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11155/15423 [9:36:13<3:40:28,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11156/15423 [9:36:15<3:40:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11156/15423 [9:36:15<3:40:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11157/15423 [9:36:18<3:40:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11157/15423 [9:36:18<3:40:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11158/15423 [9:36:20<3:40:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11158/15423 [9:36:20<3:40:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11159/15423 [9:36:24<3:40:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11159/15423 [9:36:24<3:40:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11160/15423 [9:36:29<3:40:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11160/15423 [9:36:29<3:40:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11161/15423 [9:36:31<3:40:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11161/15423 [9:36:31<3:40:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11162/15423 [9:36:33<3:40:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11162/15423 [9:36:33<3:40:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11163/15423 [9:36:37<3:40:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11163/15423 [9:36:37<3:40:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11164/15423 [9:36:38<3:39:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11164/15423 [9:36:38<3:39:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11165/15423 [9:36:42<3:39:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11165/15423 [9:36:42<3:39:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11166/15423 [9:36:45<3:39:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11166/15423 [9:36:45<3:39:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11167/15423 [9:36:46<3:39:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11167/15423 [9:36:46<3:39:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11168/15423 [9:37:07<3:39:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11168/15423 [9:37:07<3:39:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11169/15423 [9:37:11<3:39:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11169/15423 [9:37:11<3:39:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11170/15423 [9:37:13<3:39:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11170/15423 [9:37:13<3:39:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11171/15423 [9:37:16<3:39:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11171/15423 [9:37:16<3:39:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11172/15423 [9:37:19<3:39:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11172/15423 [9:37:19<3:39:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11173/15423 [9:37:22<3:39:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11173/15423 [9:37:22<3:39:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11174/15423 [9:37:24<3:39:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11174/15423 [9:37:24<3:39:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11175/15423 [9:37:25<3:39:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11175/15423 [9:37:25<3:39:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11176/15423 [9:37:28<3:39:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11176/15423 [9:37:28<3:39:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11177/15423 [9:37:31<3:39:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11177/15423 [9:37:31<3:39:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11178/15423 [9:37:35<3:39:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11178/15423 [9:37:35<3:39:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11179/15423 [9:37:39<3:39:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11179/15423 [9:37:39<3:39:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11180/15423 [9:37:41<3:39:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11180/15423 [9:37:41<3:39:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  72%|▋| 11181/15423 [9:37:43<3:39:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  72%|▋| 11181/15423 [9:37:43<3:39:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11182/15423 [9:37:44<3:39:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11182/15423 [9:37:44<3:39:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11183/15423 [9:37:46<3:39:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11183/15423 [9:37:46<3:39:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11184/15423 [9:37:48<3:39:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11184/15423 [9:37:48<3:39:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11185/15423 [9:37:50<3:38:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11185/15423 [9:37:50<3:38:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11186/15423 [9:37:51<3:38:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11186/15423 [9:37:51<3:38:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11187/15423 [9:37:53<3:38:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11187/15423 [9:37:53<3:38:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11188/15423 [9:37:56<3:38:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11188/15423 [9:37:56<3:38:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11189/15423 [9:37:58<3:38:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11189/15423 [9:37:58<3:38:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11190/15423 [9:38:02<3:38:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11190/15423 [9:38:02<3:38:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11191/15423 [9:38:05<3:38:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11191/15423 [9:38:05<3:38:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11192/15423 [9:38:08<3:38:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11192/15423 [9:38:08<3:38:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11193/15423 [9:38:10<3:38:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11193/15423 [9:38:10<3:38:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11194/15423 [9:38:13<3:38:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11194/15423 [9:38:13<3:38:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11195/15423 [9:38:16<3:38:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11195/15423 [9:38:16<3:38:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11196/15423 [9:38:19<3:38:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11196/15423 [9:38:19<3:38:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11197/15423 [9:38:23<3:38:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11197/15423 [9:38:23<3:38:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11198/15423 [9:38:26<3:38:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11198/15423 [9:38:26<3:38:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11199/15423 [9:38:30<3:38:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11199/15423 [9:38:30<3:38:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11200/15423 [9:38:44<3:38:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11200/15423 [9:38:44<3:38:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11201/15423 [9:39:10<3:38:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11201/15423 [9:39:10<3:38:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11202/15423 [9:39:14<3:38:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11202/15423 [9:39:14<3:38:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11203/15423 [9:39:17<3:38:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11203/15423 [9:39:17<3:38:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11204/15423 [9:39:21<3:38:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11204/15423 [9:39:21<3:38:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11205/15423 [9:39:23<3:38:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11205/15423 [9:39:23<3:38:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11206/15423 [9:39:24<3:38:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11206/15423 [9:39:24<3:38:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11207/15423 [9:39:27<3:37:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11207/15423 [9:39:27<3:37:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11208/15423 [9:39:31<3:37:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11208/15423 [9:39:31<3:37:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11209/15423 [9:39:36<3:37:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11209/15423 [9:39:36<3:37:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11210/15423 [9:39:38<3:37:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11210/15423 [9:39:38<3:37:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11211/15423 [9:39:42<3:37:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11211/15423 [9:39:42<3:37:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11212/15423 [9:39:44<3:37:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11212/15423 [9:39:44<3:37:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11213/15423 [9:39:48<3:37:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11213/15423 [9:39:48<3:37:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11214/15423 [9:39:49<3:37:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11214/15423 [9:39:49<3:37:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11215/15423 [9:39:51<3:37:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11215/15423 [9:39:51<3:37:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11216/15423 [9:39:54<3:37:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11216/15423 [9:39:54<3:37:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11217/15423 [9:39:56<3:37:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11217/15423 [9:39:56<3:37:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11218/15423 [9:40:00<3:37:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11218/15423 [9:40:00<3:37:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11219/15423 [9:40:02<3:37:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11219/15423 [9:40:02<3:37:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11220/15423 [9:40:03<3:37:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11220/15423 [9:40:03<3:37:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11221/15423 [9:40:04<3:37:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11221/15423 [9:40:04<3:37:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11222/15423 [9:40:08<3:37:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11222/15423 [9:40:08<3:37:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11223/15423 [9:40:09<3:37:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11223/15423 [9:40:09<3:37:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11224/15423 [9:40:10<3:37:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11224/15423 [9:40:10<3:37:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11225/15423 [9:40:13<3:36:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11225/15423 [9:40:13<3:36:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11226/15423 [9:40:17<3:36:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11226/15423 [9:40:17<3:36:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11227/15423 [9:40:18<3:36:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11227/15423 [9:40:18<3:36:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11228/15423 [9:40:21<3:36:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11228/15423 [9:40:21<3:36:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11229/15423 [9:40:23<3:36:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11229/15423 [9:40:23<3:36:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11230/15423 [9:40:25<3:36:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11230/15423 [9:40:25<3:36:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11231/15423 [9:40:27<3:36:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11231/15423 [9:40:27<3:36:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11232/15423 [9:40:39<3:36:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11232/15423 [9:40:39<3:36:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11233/15423 [9:40:44<3:36:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11233/15423 [9:40:44<3:36:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11234/15423 [9:40:45<3:36:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11234/15423 [9:40:45<3:36:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11235/15423 [9:40:46<3:36:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11235/15423 [9:40:46<3:36:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11236/15423 [9:40:47<3:36:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11236/15423 [9:40:47<3:36:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11237/15423 [9:40:49<3:36:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11237/15423 [9:40:49<3:36:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11238/15423 [9:40:52<3:36:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11238/15423 [9:40:52<3:36:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11239/15423 [9:40:53<3:36:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11239/15423 [9:40:53<3:36:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11240/15423 [9:40:56<3:36:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11240/15423 [9:40:56<3:36:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11241/15423 [9:40:57<3:36:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11241/15423 [9:40:57<3:36:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11242/15423 [9:41:01<3:36:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11242/15423 [9:41:01<3:36:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11243/15423 [9:41:03<3:36:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11243/15423 [9:41:03<3:36:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11244/15423 [9:41:03<3:35:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11244/15423 [9:41:03<3:35:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11245/15423 [9:41:08<3:35:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11245/15423 [9:41:08<3:35:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11246/15423 [9:41:11<3:35:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11246/15423 [9:41:11<3:35:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11247/15423 [9:41:14<3:35:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11247/15423 [9:41:14<3:35:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11248/15423 [9:41:18<3:35:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11248/15423 [9:41:18<3:35:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11249/15423 [9:41:20<3:35:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11249/15423 [9:41:20<3:35:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11250/15423 [9:41:23<3:35:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11250/15423 [9:41:23<3:35:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11251/15423 [9:41:27<3:35:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11251/15423 [9:41:27<3:35:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11252/15423 [9:41:28<3:35:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11252/15423 [9:41:28<3:35:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11253/15423 [9:41:32<3:35:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11253/15423 [9:41:32<3:35:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11254/15423 [9:41:33<3:35:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11254/15423 [9:41:33<3:35:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11255/15423 [9:41:33<3:35:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11255/15423 [9:41:33<3:35:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11256/15423 [9:41:36<3:35:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11256/15423 [9:41:36<3:35:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11257/15423 [9:41:37<3:35:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11257/15423 [9:41:37<3:35:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11258/15423 [9:41:41<3:35:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11258/15423 [9:41:41<3:35:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11259/15423 [9:41:43<3:35:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11259/15423 [9:41:43<3:35:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11260/15423 [9:41:44<3:35:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11260/15423 [9:41:44<3:35:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11261/15423 [9:41:45<3:35:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11261/15423 [9:41:45<3:35:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11262/15423 [9:41:47<3:34:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11262/15423 [9:41:47<3:34:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11263/15423 [9:41:50<3:34:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11263/15423 [9:41:50<3:34:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11264/15423 [9:42:17<3:35:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11264/15423 [9:42:17<3:35:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11265/15423 [9:42:20<3:34:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11265/15423 [9:42:20<3:34:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11266/15423 [9:42:23<3:34:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11266/15423 [9:42:23<3:34:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11267/15423 [9:42:25<3:34:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11267/15423 [9:42:25<3:34:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11268/15423 [9:42:29<3:34:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11268/15423 [9:42:29<3:34:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11269/15423 [9:42:32<3:34:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11269/15423 [9:42:32<3:34:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11270/15423 [9:42:34<3:34:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11270/15423 [9:42:34<3:34:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11271/15423 [9:42:37<3:34:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11271/15423 [9:42:37<3:34:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11272/15423 [9:42:39<3:34:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11272/15423 [9:42:39<3:34:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11273/15423 [9:42:41<3:34:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11273/15423 [9:42:41<3:34:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11274/15423 [9:42:44<3:34:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11274/15423 [9:42:44<3:34:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11275/15423 [9:42:48<3:34:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11275/15423 [9:42:48<3:34:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11276/15423 [9:42:53<3:34:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11276/15423 [9:42:53<3:34:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11277/15423 [9:42:54<3:34:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11277/15423 [9:42:54<3:34:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11278/15423 [9:42:55<3:34:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11278/15423 [9:42:55<3:34:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11279/15423 [9:42:58<3:34:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11279/15423 [9:42:58<3:34:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11280/15423 [9:43:00<3:34:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11280/15423 [9:43:00<3:34:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11281/15423 [9:43:03<3:34:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11281/15423 [9:43:03<3:34:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11282/15423 [9:43:06<3:34:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11282/15423 [9:43:06<3:34:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11283/15423 [9:43:07<3:33:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11283/15423 [9:43:07<3:33:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11284/15423 [9:43:10<3:33:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11284/15423 [9:43:10<3:33:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11285/15423 [9:43:12<3:33:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11285/15423 [9:43:12<3:33:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11286/15423 [9:43:16<3:33:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11286/15423 [9:43:16<3:33:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11287/15423 [9:43:18<3:33:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11287/15423 [9:43:18<3:33:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11288/15423 [9:43:22<3:33:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11288/15423 [9:43:22<3:33:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11289/15423 [9:43:23<3:33:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11289/15423 [9:43:23<3:33:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11290/15423 [9:43:25<3:33:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11290/15423 [9:43:25<3:33:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11291/15423 [9:43:27<3:33:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11291/15423 [9:43:27<3:33:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11292/15423 [9:43:29<3:33:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11292/15423 [9:43:29<3:33:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11293/15423 [9:43:33<3:33:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11293/15423 [9:43:33<3:33:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11294/15423 [9:43:35<3:33:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11294/15423 [9:43:35<3:33:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11295/15423 [9:43:39<3:33:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11295/15423 [9:43:39<3:33:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11296/15423 [9:44:08<3:33:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11296/15423 [9:44:08<3:33:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11297/15423 [9:44:09<3:33:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11297/15423 [9:44:09<3:33:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11298/15423 [9:44:13<3:33:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11298/15423 [9:44:13<3:33:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11299/15423 [9:44:15<3:33:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11299/15423 [9:44:15<3:33:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11300/15423 [9:44:20<3:33:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11300/15423 [9:44:20<3:33:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11301/15423 [9:44:24<3:33:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11301/15423 [9:44:24<3:33:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11302/15423 [9:44:28<3:33:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11302/15423 [9:44:28<3:33:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11303/15423 [9:44:29<3:33:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11303/15423 [9:44:29<3:33:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11304/15423 [9:44:31<3:32:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11304/15423 [9:44:31<3:32:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11305/15423 [9:44:34<3:32:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11305/15423 [9:44:34<3:32:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11306/15423 [9:44:36<3:32:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11306/15423 [9:44:36<3:32:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11307/15423 [9:44:38<3:32:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11307/15423 [9:44:38<3:32:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11308/15423 [9:44:42<3:32:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11308/15423 [9:44:42<3:32:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11309/15423 [9:44:45<3:32:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11309/15423 [9:44:45<3:32:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11310/15423 [9:44:48<3:32:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11310/15423 [9:44:48<3:32:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11311/15423 [9:44:50<3:32:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11311/15423 [9:44:50<3:32:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11312/15423 [9:44:51<3:32:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11312/15423 [9:44:51<3:32:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11313/15423 [9:44:53<3:32:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11313/15423 [9:44:53<3:32:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11314/15423 [9:44:57<3:32:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11314/15423 [9:44:57<3:32:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11315/15423 [9:44:58<3:32:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11315/15423 [9:44:58<3:32:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11316/15423 [9:45:00<3:32:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11316/15423 [9:45:00<3:32:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11317/15423 [9:45:04<3:32:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11317/15423 [9:45:04<3:32:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11318/15423 [9:45:09<3:32:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11318/15423 [9:45:09<3:32:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11319/15423 [9:45:10<3:32:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11319/15423 [9:45:10<3:32:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11320/15423 [9:45:14<3:32:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11320/15423 [9:45:14<3:32:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11321/15423 [9:45:16<3:32:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11321/15423 [9:45:16<3:32:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11322/15423 [9:45:20<3:32:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11322/15423 [9:45:20<3:32:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11323/15423 [9:45:21<3:31:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11323/15423 [9:45:21<3:31:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11324/15423 [9:45:24<3:31:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11324/15423 [9:45:24<3:31:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11325/15423 [9:45:25<3:31:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11325/15423 [9:45:25<3:31:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11326/15423 [9:45:28<3:31:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11326/15423 [9:45:28<3:31:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11327/15423 [9:45:32<3:31:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11327/15423 [9:45:32<3:31:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11328/15423 [9:45:42<3:31:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11328/15423 [9:45:42<3:31:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11329/15423 [9:45:47<3:31:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11329/15423 [9:45:47<3:31:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11330/15423 [9:45:48<3:31:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11330/15423 [9:45:48<3:31:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11331/15423 [9:45:50<3:31:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11331/15423 [9:45:50<3:31:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11332/15423 [9:45:54<3:31:31,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11332/15423 [9:45:54<3:31:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11333/15423 [9:45:57<3:31:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11333/15423 [9:45:57<3:31:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11334/15423 [9:46:00<3:31:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11334/15423 [9:46:00<3:31:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  73%|▋| 11335/15423 [9:46:01<3:31:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  73%|▋| 11335/15423 [9:46:01<3:31:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11336/15423 [9:46:05<3:31:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11336/15423 [9:46:05<3:31:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11337/15423 [9:46:06<3:31:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11337/15423 [9:46:06<3:31:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11338/15423 [9:46:07<3:31:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11338/15423 [9:46:07<3:31:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11339/15423 [9:46:09<3:31:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11339/15423 [9:46:09<3:31:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11340/15423 [9:46:14<3:31:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11340/15423 [9:46:14<3:31:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11341/15423 [9:46:17<3:31:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11341/15423 [9:46:17<3:31:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11342/15423 [9:46:19<3:30:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11342/15423 [9:46:19<3:30:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11343/15423 [9:46:22<3:30:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11343/15423 [9:46:22<3:30:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11344/15423 [9:46:23<3:30:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11344/15423 [9:46:23<3:30:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11345/15423 [9:46:25<3:30:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11345/15423 [9:46:25<3:30:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11346/15423 [9:46:30<3:30:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11346/15423 [9:46:30<3:30:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11347/15423 [9:46:32<3:30:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11347/15423 [9:46:32<3:30:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11348/15423 [9:46:33<3:30:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11348/15423 [9:46:33<3:30:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11349/15423 [9:46:35<3:30:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11349/15423 [9:46:35<3:30:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11350/15423 [9:46:37<3:30:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11350/15423 [9:46:37<3:30:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11351/15423 [9:46:40<3:30:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11351/15423 [9:46:40<3:30:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11352/15423 [9:46:41<3:30:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11352/15423 [9:46:41<3:30:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11353/15423 [9:46:45<3:30:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11353/15423 [9:46:45<3:30:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11354/15423 [9:46:45<3:30:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11354/15423 [9:46:45<3:30:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11355/15423 [9:46:47<3:30:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11355/15423 [9:46:47<3:30:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11356/15423 [9:46:49<3:30:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11356/15423 [9:46:49<3:30:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11357/15423 [9:46:51<3:30:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11357/15423 [9:46:51<3:30:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11358/15423 [9:46:53<3:30:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11358/15423 [9:46:53<3:30:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11359/15423 [9:46:56<3:29:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11359/15423 [9:46:56<3:29:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11360/15423 [9:47:21<3:30:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11360/15423 [9:47:21<3:30:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11361/15423 [9:47:22<3:30:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11361/15423 [9:47:22<3:30:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11362/15423 [9:47:25<3:29:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11362/15423 [9:47:25<3:29:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11363/15423 [9:47:29<3:29:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11363/15423 [9:47:29<3:29:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11364/15423 [9:47:31<3:29:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11364/15423 [9:47:31<3:29:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11365/15423 [9:47:32<3:29:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11365/15423 [9:47:32<3:29:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11366/15423 [9:47:33<3:29:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11366/15423 [9:47:33<3:29:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11367/15423 [9:47:34<3:29:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11367/15423 [9:47:34<3:29:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11368/15423 [9:47:36<3:29:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11368/15423 [9:47:36<3:29:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11369/15423 [9:47:38<3:29:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11369/15423 [9:47:38<3:29:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11370/15423 [9:47:42<3:29:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11370/15423 [9:47:42<3:29:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11371/15423 [9:47:46<3:29:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11371/15423 [9:47:46<3:29:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11372/15423 [9:47:51<3:29:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11372/15423 [9:47:51<3:29:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11373/15423 [9:47:52<3:29:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11373/15423 [9:47:52<3:29:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11374/15423 [9:47:53<3:29:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11374/15423 [9:47:53<3:29:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11375/15423 [9:47:54<3:29:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11375/15423 [9:47:54<3:29:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11376/15423 [9:47:58<3:29:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11376/15423 [9:47:58<3:29:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11377/15423 [9:47:59<3:29:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11377/15423 [9:47:59<3:29:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11378/15423 [9:48:03<3:29:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11378/15423 [9:48:03<3:29:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11379/15423 [9:48:05<3:29:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11379/15423 [9:48:05<3:29:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11380/15423 [9:48:06<3:28:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11380/15423 [9:48:06<3:28:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11381/15423 [9:48:08<3:28:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11381/15423 [9:48:08<3:28:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11382/15423 [9:48:10<3:28:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11382/15423 [9:48:10<3:28:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11383/15423 [9:48:14<3:28:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11383/15423 [9:48:14<3:28:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11384/15423 [9:48:15<3:28:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11384/15423 [9:48:15<3:28:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11385/15423 [9:48:20<3:28:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11385/15423 [9:48:20<3:28:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11386/15423 [9:48:21<3:28:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11386/15423 [9:48:21<3:28:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11387/15423 [9:48:24<3:28:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11387/15423 [9:48:24<3:28:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11388/15423 [9:48:26<3:28:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11388/15423 [9:48:26<3:28:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11389/15423 [9:48:26<3:28:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11389/15423 [9:48:26<3:28:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11390/15423 [9:48:27<3:28:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11390/15423 [9:48:27<3:28:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11391/15423 [9:48:30<3:28:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11391/15423 [9:48:30<3:28:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11392/15423 [9:48:59<3:28:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11392/15423 [9:48:59<3:28:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11393/15423 [9:49:04<3:28:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11393/15423 [9:49:04<3:28:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11394/15423 [9:49:08<3:28:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11394/15423 [9:49:08<3:28:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11395/15423 [9:49:10<3:28:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11395/15423 [9:49:10<3:28:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11396/15423 [9:49:14<3:28:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11396/15423 [9:49:14<3:28:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11397/15423 [9:49:16<3:28:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11397/15423 [9:49:16<3:28:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11398/15423 [9:49:21<3:28:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11398/15423 [9:49:21<3:28:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11399/15423 [9:49:22<3:28:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11399/15423 [9:49:22<3:28:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11400/15423 [9:49:24<3:28:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11400/15423 [9:49:24<3:28:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11401/15423 [9:49:27<3:27:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11401/15423 [9:49:27<3:27:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11402/15423 [9:49:28<3:27:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11402/15423 [9:49:28<3:27:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11403/15423 [9:49:31<3:27:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11403/15423 [9:49:31<3:27:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11404/15423 [9:49:35<3:27:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11404/15423 [9:49:35<3:27:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11405/15423 [9:49:38<3:27:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11405/15423 [9:49:38<3:27:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11406/15423 [9:49:41<3:27:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11406/15423 [9:49:41<3:27:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11407/15423 [9:49:43<3:27:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11407/15423 [9:49:43<3:27:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11408/15423 [9:49:44<3:27:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11408/15423 [9:49:44<3:27:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11409/15423 [9:49:47<3:27:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11409/15423 [9:49:47<3:27:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11410/15423 [9:49:50<3:27:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11410/15423 [9:49:50<3:27:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11411/15423 [9:49:51<3:27:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11411/15423 [9:49:51<3:27:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11412/15423 [9:49:54<3:27:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11412/15423 [9:49:54<3:27:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11413/15423 [9:49:54<3:27:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11413/15423 [9:49:54<3:27:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11414/15423 [9:49:57<3:27:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11414/15423 [9:49:57<3:27:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11415/15423 [9:49:59<3:27:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11415/15423 [9:49:59<3:27:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11416/15423 [9:50:02<3:27:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11416/15423 [9:50:02<3:27:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11417/15423 [9:50:03<3:27:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11417/15423 [9:50:03<3:27:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11418/15423 [9:50:05<3:26:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11418/15423 [9:50:05<3:26:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11419/15423 [9:50:06<3:26:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11419/15423 [9:50:06<3:26:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11420/15423 [9:50:07<3:26:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11420/15423 [9:50:07<3:26:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11421/15423 [9:50:11<3:26:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11421/15423 [9:50:11<3:26:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11422/15423 [9:50:12<3:26:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11422/15423 [9:50:12<3:26:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11423/15423 [9:50:15<3:26:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11423/15423 [9:50:15<3:26:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11424/15423 [9:50:40<3:26:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11424/15423 [9:50:40<3:26:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11425/15423 [9:50:42<3:26:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11425/15423 [9:50:42<3:26:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11426/15423 [9:50:45<3:26:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11426/15423 [9:50:45<3:26:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11427/15423 [9:50:49<3:26:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11427/15423 [9:50:49<3:26:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11428/15423 [9:50:52<3:26:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11428/15423 [9:50:52<3:26:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11429/15423 [9:50:56<3:26:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11429/15423 [9:50:56<3:26:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11430/15423 [9:50:57<3:26:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11430/15423 [9:50:57<3:26:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11431/15423 [9:51:01<3:26:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11431/15423 [9:51:01<3:26:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11432/15423 [9:51:03<3:26:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11432/15423 [9:51:03<3:26:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11433/15423 [9:51:07<3:26:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11433/15423 [9:51:07<3:26:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11434/15423 [9:51:10<3:26:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11434/15423 [9:51:10<3:26:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11435/15423 [9:51:12<3:26:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11435/15423 [9:51:12<3:26:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11436/15423 [9:51:17<3:26:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11436/15423 [9:51:17<3:26:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11437/15423 [9:51:21<3:26:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11437/15423 [9:51:21<3:26:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11438/15423 [9:51:23<3:26:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11438/15423 [9:51:23<3:26:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11439/15423 [9:51:27<3:25:59,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11439/15423 [9:51:27<3:25:59,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11440/15423 [9:51:30<3:25:56,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11440/15423 [9:51:30<3:25:56,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11441/15423 [9:51:33<3:25:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11441/15423 [9:51:33<3:25:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11442/15423 [9:51:34<3:25:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11442/15423 [9:51:34<3:25:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11443/15423 [9:51:36<3:25:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11443/15423 [9:51:36<3:25:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11444/15423 [9:51:38<3:25:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11444/15423 [9:51:38<3:25:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11445/15423 [9:51:43<3:25:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11445/15423 [9:51:43<3:25:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11446/15423 [9:51:46<3:25:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11446/15423 [9:51:46<3:25:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11447/15423 [9:51:47<3:25:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11447/15423 [9:51:47<3:25:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11448/15423 [9:51:51<3:25:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11448/15423 [9:51:51<3:25:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11449/15423 [9:51:52<3:25:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11449/15423 [9:51:52<3:25:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11450/15423 [9:51:53<3:25:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11450/15423 [9:51:53<3:25:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11451/15423 [9:51:54<3:25:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11451/15423 [9:51:54<3:25:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11452/15423 [9:51:55<3:25:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11452/15423 [9:51:55<3:25:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11453/15423 [9:51:57<3:25:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11453/15423 [9:51:57<3:25:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11454/15423 [9:52:01<3:25:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11454/15423 [9:52:01<3:25:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11455/15423 [9:52:04<3:25:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11455/15423 [9:52:04<3:25:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11456/15423 [9:52:15<3:25:05,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11456/15423 [9:52:15<3:25:05,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11457/15423 [9:52:16<3:25:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11457/15423 [9:52:16<3:25:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11458/15423 [9:52:20<3:24:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11458/15423 [9:52:20<3:24:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11459/15423 [9:52:23<3:24:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11459/15423 [9:52:23<3:24:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11460/15423 [9:52:27<3:24:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11460/15423 [9:52:27<3:24:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11461/15423 [9:52:28<3:24:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11461/15423 [9:52:28<3:24:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11462/15423 [9:52:29<3:24:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11462/15423 [9:52:29<3:24:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11463/15423 [9:52:33<3:24:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11463/15423 [9:52:33<3:24:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11464/15423 [9:52:35<3:24:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11464/15423 [9:52:35<3:24:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11465/15423 [9:52:39<3:24:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11465/15423 [9:52:39<3:24:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11466/15423 [9:52:41<3:24:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11466/15423 [9:52:41<3:24:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11467/15423 [9:52:44<3:24:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11467/15423 [9:52:44<3:24:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11468/15423 [9:52:48<3:24:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11468/15423 [9:52:48<3:24:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11469/15423 [9:52:53<3:24:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11469/15423 [9:52:53<3:24:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11470/15423 [9:52:55<3:24:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11470/15423 [9:52:55<3:24:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11471/15423 [9:52:56<3:24:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11471/15423 [9:52:56<3:24:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11472/15423 [9:53:00<3:24:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11472/15423 [9:53:00<3:24:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11473/15423 [9:53:02<3:24:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11473/15423 [9:53:02<3:24:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11474/15423 [9:53:03<3:24:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11474/15423 [9:53:03<3:24:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11475/15423 [9:53:06<3:24:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11475/15423 [9:53:06<3:24:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11476/15423 [9:53:09<3:24:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11476/15423 [9:53:09<3:24:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11477/15423 [9:53:12<3:23:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11477/15423 [9:53:12<3:23:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11478/15423 [9:53:15<3:23:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11478/15423 [9:53:15<3:23:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11479/15423 [9:53:17<3:23:50,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11479/15423 [9:53:17<3:23:50,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11480/15423 [9:53:20<3:23:47,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11480/15423 [9:53:20<3:23:47,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11481/15423 [9:53:25<3:23:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11481/15423 [9:53:25<3:23:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11482/15423 [9:53:26<3:23:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11482/15423 [9:53:26<3:23:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11483/15423 [9:53:30<3:23:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11483/15423 [9:53:30<3:23:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11484/15423 [9:53:33<3:23:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11484/15423 [9:53:33<3:23:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11485/15423 [9:53:36<3:23:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11485/15423 [9:53:36<3:23:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11486/15423 [9:53:39<3:23:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11486/15423 [9:53:39<3:23:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11487/15423 [9:53:43<3:23:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11487/15423 [9:53:43<3:23:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11488/15423 [9:53:52<3:23:25,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11488/15423 [9:53:52<3:23:25,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11489/15423 [9:53:54<3:23:21,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11489/15423 [9:53:54<3:23:21,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  74%|▋| 11490/15423 [9:53:55<3:23:18,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  74%|▋| 11490/15423 [9:53:55<3:23:18,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11491/15423 [9:53:56<3:23:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11491/15423 [9:53:56<3:23:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11492/15423 [9:53:58<3:23:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11492/15423 [9:53:58<3:23:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11493/15423 [9:54:00<3:23:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11493/15423 [9:54:00<3:23:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11494/15423 [9:54:05<3:23:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11494/15423 [9:54:05<3:23:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11495/15423 [9:54:07<3:23:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11495/15423 [9:54:07<3:23:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11496/15423 [9:54:10<3:22:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11496/15423 [9:54:10<3:22:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11497/15423 [9:54:14<3:22:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11497/15423 [9:54:14<3:22:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11498/15423 [9:54:19<3:22:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11498/15423 [9:54:19<3:22:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11499/15423 [9:54:21<3:22:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11499/15423 [9:54:21<3:22:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11500/15423 [9:54:25<3:22:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11500/15423 [9:54:25<3:22:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11501/15423 [9:54:28<3:22:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11501/15423 [9:54:28<3:22:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11502/15423 [9:54:32<3:22:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11502/15423 [9:54:32<3:22:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11503/15423 [9:54:36<3:22:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11503/15423 [9:54:36<3:22:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11504/15423 [9:54:39<3:22:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11504/15423 [9:54:39<3:22:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11505/15423 [9:54:41<3:22:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11505/15423 [9:54:41<3:22:31,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11506/15423 [9:54:43<3:22:27,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11506/15423 [9:54:43<3:22:27,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11507/15423 [9:54:44<3:22:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11507/15423 [9:54:44<3:22:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11508/15423 [9:54:46<3:22:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11508/15423 [9:54:46<3:22:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11509/15423 [9:54:49<3:22:17,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11509/15423 [9:54:49<3:22:17,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11510/15423 [9:54:53<3:22:14,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11510/15423 [9:54:53<3:22:14,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11511/15423 [9:54:56<3:22:11,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11511/15423 [9:54:56<3:22:11,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11512/15423 [9:55:00<3:22:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11512/15423 [9:55:00<3:22:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11513/15423 [9:55:01<3:22:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11513/15423 [9:55:01<3:22:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11514/15423 [9:55:03<3:22:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11514/15423 [9:55:03<3:22:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11515/15423 [9:55:07<3:21:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11515/15423 [9:55:07<3:21:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11516/15423 [9:55:11<3:21:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11516/15423 [9:55:11<3:21:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11517/15423 [9:55:13<3:21:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11517/15423 [9:55:13<3:21:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11518/15423 [9:55:16<3:21:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11518/15423 [9:55:16<3:21:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11519/15423 [9:55:20<3:21:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11519/15423 [9:55:20<3:21:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11520/15423 [9:55:31<3:21:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11520/15423 [9:55:31<3:21:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11521/15423 [9:55:33<3:21:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11521/15423 [9:55:33<3:21:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11522/15423 [9:55:36<3:21:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11522/15423 [9:55:36<3:21:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11523/15423 [9:55:38<3:21:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11523/15423 [9:55:38<3:21:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11524/15423 [9:55:43<3:21:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11524/15423 [9:55:43<3:21:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11525/15423 [9:55:43<3:21:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11525/15423 [9:55:43<3:21:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11526/15423 [9:55:46<3:21:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11526/15423 [9:55:46<3:21:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11527/15423 [9:55:48<3:21:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11527/15423 [9:55:48<3:21:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11528/15423 [9:55:51<3:21:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11528/15423 [9:55:51<3:21:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11529/15423 [9:55:55<3:21:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11529/15423 [9:55:55<3:21:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11530/15423 [9:55:56<3:21:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11530/15423 [9:55:56<3:21:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11531/15423 [9:55:57<3:21:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11531/15423 [9:55:57<3:21:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11532/15423 [9:56:02<3:21:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11532/15423 [9:56:02<3:21:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11533/15423 [9:56:04<3:21:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11533/15423 [9:56:04<3:21:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11534/15423 [9:56:08<3:21:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11534/15423 [9:56:08<3:21:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11535/15423 [9:56:12<3:20:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11535/15423 [9:56:12<3:20:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11536/15423 [9:56:15<3:20:54,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11536/15423 [9:56:15<3:20:54,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11537/15423 [9:56:19<3:20:51,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11537/15423 [9:56:19<3:20:51,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11538/15423 [9:56:23<3:20:48,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11538/15423 [9:56:23<3:20:48,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11539/15423 [9:56:26<3:20:45,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11539/15423 [9:56:26<3:20:45,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11540/15423 [9:56:30<3:20:42,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11540/15423 [9:56:30<3:20:42,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11541/15423 [9:56:31<3:20:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11541/15423 [9:56:31<3:20:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11542/15423 [9:56:33<3:20:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11542/15423 [9:56:33<3:20:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11543/15423 [9:56:37<3:20:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11543/15423 [9:56:37<3:20:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11544/15423 [9:56:38<3:20:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11544/15423 [9:56:38<3:20:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11545/15423 [9:56:43<3:20:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11545/15423 [9:56:43<3:20:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11546/15423 [9:56:46<3:20:23,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11546/15423 [9:56:46<3:20:23,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11547/15423 [9:56:48<3:20:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11547/15423 [9:56:48<3:20:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11548/15423 [9:56:52<3:20:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11548/15423 [9:56:52<3:20:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11549/15423 [9:56:54<3:20:13,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11549/15423 [9:56:54<3:20:13,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11550/15423 [9:56:57<3:20:10,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11550/15423 [9:56:57<3:20:10,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11551/15423 [9:57:01<3:20:07,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11551/15423 [9:57:01<3:20:07,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11552/15423 [9:57:16<3:20:08,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11552/15423 [9:57:16<3:20:08,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11553/15423 [9:57:17<3:20:04,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11553/15423 [9:57:17<3:20:04,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11554/15423 [9:57:20<3:20:01,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11554/15423 [9:57:20<3:20:01,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11555/15423 [9:57:24<3:19:58,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11555/15423 [9:57:24<3:19:58,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11556/15423 [9:57:27<3:19:55,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11556/15423 [9:57:27<3:19:55,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11557/15423 [9:57:30<3:19:52,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11557/15423 [9:57:30<3:19:52,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11558/15423 [9:57:34<3:19:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11558/15423 [9:57:34<3:19:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11559/15423 [9:57:37<3:19:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11559/15423 [9:57:37<3:19:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11560/15423 [9:57:42<3:19:44,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11560/15423 [9:57:42<3:19:44,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11561/15423 [9:57:46<3:19:41,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11561/15423 [9:57:46<3:19:41,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11562/15423 [9:57:51<3:19:38,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11562/15423 [9:57:51<3:19:38,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11563/15423 [9:57:55<3:19:35,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11563/15423 [9:57:55<3:19:35,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11564/15423 [9:57:55<3:19:32,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11564/15423 [9:57:55<3:19:32,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11565/15423 [9:57:59<3:19:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11565/15423 [9:57:59<3:19:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11566/15423 [9:58:02<3:19:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11566/15423 [9:58:02<3:19:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▋| 11567/15423 [9:58:05<3:19:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▋| 11567/15423 [9:58:05<3:19:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11568/15423 [9:58:07<3:19:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11568/15423 [9:58:07<3:19:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11569/15423 [9:58:08<3:19:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11569/15423 [9:58:08<3:19:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11570/15423 [9:58:12<3:19:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11570/15423 [9:58:12<3:19:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11571/15423 [9:58:14<3:19:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11571/15423 [9:58:14<3:19:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11572/15423 [9:58:19<3:19:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11572/15423 [9:58:19<3:19:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11573/15423 [9:58:21<3:19:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11573/15423 [9:58:21<3:19:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11574/15423 [9:58:24<3:19:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11574/15423 [9:58:24<3:19:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11575/15423 [9:58:27<3:18:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11575/15423 [9:58:27<3:18:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11576/15423 [9:58:29<3:18:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11576/15423 [9:58:29<3:18:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11577/15423 [9:58:30<3:18:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11577/15423 [9:58:30<3:18:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11578/15423 [9:58:32<3:18:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11578/15423 [9:58:32<3:18:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11579/15423 [9:58:36<3:18:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11579/15423 [9:58:36<3:18:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11580/15423 [9:58:38<3:18:40,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11580/15423 [9:58:38<3:18:40,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11581/15423 [9:58:41<3:18:36,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11581/15423 [9:58:41<3:18:36,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11582/15423 [9:58:44<3:18:33,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11582/15423 [9:58:44<3:18:33,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11583/15423 [9:58:47<3:18:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11583/15423 [9:58:47<3:18:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11584/15423 [9:58:57<3:18:29,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11584/15423 [9:58:57<3:18:29,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11585/15423 [9:58:59<3:18:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11585/15423 [9:58:59<3:18:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11586/15423 [9:59:01<3:18:22,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11586/15423 [9:59:01<3:18:22,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11587/15423 [9:59:02<3:18:19,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11587/15423 [9:59:02<3:18:19,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11588/15423 [9:59:05<3:18:15,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11588/15423 [9:59:05<3:18:15,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11589/15423 [9:59:06<3:18:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11589/15423 [9:59:06<3:18:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11590/15423 [9:59:09<3:18:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11590/15423 [9:59:09<3:18:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11591/15423 [9:59:13<3:18:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11591/15423 [9:59:13<3:18:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11592/15423 [9:59:16<3:18:03,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11592/15423 [9:59:16<3:18:03,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11593/15423 [9:59:20<3:18:00,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11593/15423 [9:59:20<3:18:00,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11594/15423 [9:59:23<3:17:57,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11594/15423 [9:59:23<3:17:57,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11595/15423 [9:59:24<3:17:53,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11595/15423 [9:59:24<3:17:53,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11596/15423 [9:59:26<3:17:49,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11596/15423 [9:59:26<3:17:49,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11597/15423 [9:59:27<3:17:46,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11597/15423 [9:59:27<3:17:46,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11598/15423 [9:59:31<3:17:43,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11598/15423 [9:59:31<3:17:43,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11599/15423 [9:59:33<3:17:39,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11599/15423 [9:59:33<3:17:39,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11600/15423 [9:59:37<3:17:37,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11600/15423 [9:59:37<3:17:37,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11601/15423 [9:59:41<3:17:34,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11601/15423 [9:59:41<3:17:34,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11602/15423 [9:59:43<3:17:30,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11602/15423 [9:59:43<3:17:30,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11603/15423 [9:59:44<3:17:26,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11603/15423 [9:59:44<3:17:26,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11604/15423 [9:59:48<3:17:24,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11604/15423 [9:59:48<3:17:24,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11605/15423 [9:59:50<3:17:20,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11605/15423 [9:59:50<3:17:20,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11606/15423 [9:59:51<3:17:16,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11606/15423 [9:59:51<3:17:16,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11607/15423 [9:59:51<3:17:12,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11607/15423 [9:59:51<3:17:12,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11608/15423 [9:59:53<3:17:09,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11608/15423 [9:59:53<3:17:09,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11609/15423 [9:59:56<3:17:06,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11609/15423 [9:59:56<3:17:06,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11610/15423 [9:59:58<3:17:02,  3.10s/it, v_num=ufwn, train/loss\r",
-      "Epoch 0:  75%|▊| 11610/15423 [9:59:58<3:17:02,  3.10s/it, v_num=ufwn, train/loss"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11611/15423 [10:00:02<3:16:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11611/15423 [10:00:02<3:16:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11612/15423 [10:00:06<3:16:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11612/15423 [10:00:06<3:16:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11613/15423 [10:00:10<3:16:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11613/15423 [10:00:10<3:16:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11614/15423 [10:00:12<3:16:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11614/15423 [10:00:12<3:16:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11615/15423 [10:00:17<3:16:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11615/15423 [10:00:17<3:16:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11616/15423 [10:00:33<3:16:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11616/15423 [10:00:33<3:16:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11617/15423 [10:00:35<3:16:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11617/15423 [10:00:35<3:16:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11618/15423 [10:00:39<3:16:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11618/15423 [10:00:39<3:16:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11619/15423 [10:00:41<3:16:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11619/15423 [10:00:41<3:16:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11620/15423 [10:00:44<3:16:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11620/15423 [10:00:44<3:16:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11621/15423 [10:00:48<3:16:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11621/15423 [10:00:48<3:16:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11622/15423 [10:00:49<3:16:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11622/15423 [10:00:49<3:16:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11623/15423 [10:00:52<3:16:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11623/15423 [10:00:52<3:16:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11624/15423 [10:00:54<3:16:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11624/15423 [10:00:54<3:16:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11625/15423 [10:00:59<3:16:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11625/15423 [10:00:59<3:16:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11626/15423 [10:01:01<3:16:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11626/15423 [10:01:01<3:16:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11627/15423 [10:01:02<3:16:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11627/15423 [10:01:02<3:16:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11628/15423 [10:01:07<3:16:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11628/15423 [10:01:07<3:16:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11629/15423 [10:01:10<3:16:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11629/15423 [10:01:10<3:16:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11630/15423 [10:01:15<3:16:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11630/15423 [10:01:15<3:16:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11631/15423 [10:01:16<3:16:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11631/15423 [10:01:16<3:16:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11632/15423 [10:01:18<3:15:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11632/15423 [10:01:18<3:15:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11633/15423 [10:01:20<3:15:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11633/15423 [10:01:20<3:15:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11634/15423 [10:01:22<3:15:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11634/15423 [10:01:22<3:15:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11635/15423 [10:01:24<3:15:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11635/15423 [10:01:24<3:15:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11636/15423 [10:01:26<3:15:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11636/15423 [10:01:26<3:15:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11637/15423 [10:01:29<3:15:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11637/15423 [10:01:29<3:15:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11638/15423 [10:01:32<3:15:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11638/15423 [10:01:32<3:15:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11639/15423 [10:01:35<3:15:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11639/15423 [10:01:35<3:15:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11640/15423 [10:01:36<3:15:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11640/15423 [10:01:36<3:15:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11641/15423 [10:01:37<3:15:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11641/15423 [10:01:37<3:15:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11642/15423 [10:01:40<3:15:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11642/15423 [10:01:40<3:15:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11643/15423 [10:01:41<3:15:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11643/15423 [10:01:41<3:15:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  75%|▊| 11644/15423 [10:01:45<3:15:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  75%|▊| 11644/15423 [10:01:45<3:15:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11645/15423 [10:01:48<3:15:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11645/15423 [10:01:48<3:15:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11646/15423 [10:01:49<3:15:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11646/15423 [10:01:49<3:15:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11647/15423 [10:01:52<3:15:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11647/15423 [10:01:52<3:15:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11648/15423 [10:02:13<3:15:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11648/15423 [10:02:13<3:15:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11649/15423 [10:02:16<3:15:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11649/15423 [10:02:16<3:15:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11650/15423 [10:02:19<3:15:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11650/15423 [10:02:19<3:15:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11651/15423 [10:02:24<3:15:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11651/15423 [10:02:24<3:15:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11652/15423 [10:02:27<3:14:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11652/15423 [10:02:27<3:14:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11653/15423 [10:02:31<3:14:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11653/15423 [10:02:31<3:14:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11654/15423 [10:02:32<3:14:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11654/15423 [10:02:32<3:14:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11655/15423 [10:02:35<3:14:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11655/15423 [10:02:35<3:14:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11656/15423 [10:02:40<3:14:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11656/15423 [10:02:40<3:14:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11657/15423 [10:02:44<3:14:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11657/15423 [10:02:44<3:14:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11658/15423 [10:02:48<3:14:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11658/15423 [10:02:48<3:14:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11659/15423 [10:02:51<3:14:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11659/15423 [10:02:51<3:14:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11660/15423 [10:02:56<3:14:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11660/15423 [10:02:56<3:14:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11661/15423 [10:02:56<3:14:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11661/15423 [10:02:56<3:14:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11662/15423 [10:02:58<3:14:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11662/15423 [10:02:58<3:14:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11663/15423 [10:03:01<3:14:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11663/15423 [10:03:01<3:14:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11664/15423 [10:03:06<3:14:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11664/15423 [10:03:06<3:14:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11665/15423 [10:03:07<3:14:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11665/15423 [10:03:07<3:14:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11666/15423 [10:03:08<3:14:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11666/15423 [10:03:08<3:14:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11667/15423 [10:03:12<3:14:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11667/15423 [10:03:12<3:14:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11668/15423 [10:03:16<3:14:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11668/15423 [10:03:16<3:14:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11669/15423 [10:03:18<3:14:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11669/15423 [10:03:18<3:14:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11670/15423 [10:03:21<3:14:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11670/15423 [10:03:21<3:14:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11671/15423 [10:03:24<3:13:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11671/15423 [10:03:24<3:13:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11672/15423 [10:03:25<3:13:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11672/15423 [10:03:25<3:13:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11673/15423 [10:03:29<3:13:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11673/15423 [10:03:29<3:13:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11674/15423 [10:03:33<3:13:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11674/15423 [10:03:33<3:13:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11675/15423 [10:03:35<3:13:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11675/15423 [10:03:35<3:13:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11676/15423 [10:03:39<3:13:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11676/15423 [10:03:39<3:13:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11677/15423 [10:03:41<3:13:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11677/15423 [10:03:41<3:13:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11678/15423 [10:03:46<3:13:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11678/15423 [10:03:46<3:13:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11679/15423 [10:03:49<3:13:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11679/15423 [10:03:49<3:13:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11680/15423 [10:03:56<3:13:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11680/15423 [10:03:56<3:13:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11681/15423 [10:04:00<3:13:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11681/15423 [10:04:00<3:13:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11682/15423 [10:04:01<3:13:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11682/15423 [10:04:01<3:13:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11683/15423 [10:04:03<3:13:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11683/15423 [10:04:03<3:13:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11684/15423 [10:04:07<3:13:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11684/15423 [10:04:07<3:13:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11685/15423 [10:04:10<3:13:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11685/15423 [10:04:10<3:13:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11686/15423 [10:04:12<3:13:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11686/15423 [10:04:12<3:13:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11687/15423 [10:04:14<3:13:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11687/15423 [10:04:14<3:13:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11688/15423 [10:04:15<3:13:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11688/15423 [10:04:15<3:13:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11689/15423 [10:04:17<3:13:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11689/15423 [10:04:17<3:13:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11690/15423 [10:04:21<3:12:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11690/15423 [10:04:21<3:12:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11691/15423 [10:04:22<3:12:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11691/15423 [10:04:22<3:12:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11692/15423 [10:04:25<3:12:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11692/15423 [10:04:25<3:12:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11693/15423 [10:04:28<3:12:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11693/15423 [10:04:28<3:12:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11694/15423 [10:04:29<3:12:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11694/15423 [10:04:29<3:12:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11695/15423 [10:04:30<3:12:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11695/15423 [10:04:30<3:12:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11696/15423 [10:04:31<3:12:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11696/15423 [10:04:31<3:12:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11697/15423 [10:04:34<3:12:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11697/15423 [10:04:34<3:12:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11698/15423 [10:04:37<3:12:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11698/15423 [10:04:37<3:12:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11699/15423 [10:04:40<3:12:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11699/15423 [10:04:40<3:12:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11700/15423 [10:04:44<3:12:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11700/15423 [10:04:44<3:12:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11701/15423 [10:04:48<3:12:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11701/15423 [10:04:48<3:12:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11702/15423 [10:04:50<3:12:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11702/15423 [10:04:50<3:12:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11703/15423 [10:04:50<3:12:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11703/15423 [10:04:50<3:12:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11704/15423 [10:04:54<3:12:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11704/15423 [10:04:54<3:12:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11705/15423 [10:04:55<3:12:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11705/15423 [10:04:55<3:12:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11706/15423 [10:04:59<3:12:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11706/15423 [10:04:59<3:12:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11707/15423 [10:04:59<3:12:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11707/15423 [10:04:59<3:12:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11708/15423 [10:05:00<3:11:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11708/15423 [10:05:00<3:11:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11709/15423 [10:05:01<3:11:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11709/15423 [10:05:01<3:11:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11710/15423 [10:05:02<3:11:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11710/15423 [10:05:02<3:11:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11711/15423 [10:05:03<3:11:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11711/15423 [10:05:03<3:11:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11712/15423 [10:05:39<3:11:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11712/15423 [10:05:39<3:11:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11713/15423 [10:05:44<3:11:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11713/15423 [10:05:44<3:11:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11714/15423 [10:05:47<3:11:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11714/15423 [10:05:47<3:11:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11715/15423 [10:05:51<3:11:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11715/15423 [10:05:51<3:11:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11716/15423 [10:05:55<3:11:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11716/15423 [10:05:55<3:11:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11717/15423 [10:05:56<3:11:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11717/15423 [10:05:56<3:11:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11718/15423 [10:05:59<3:11:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11718/15423 [10:05:59<3:11:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11719/15423 [10:06:03<3:11:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11719/15423 [10:06:03<3:11:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11720/15423 [10:06:07<3:11:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11720/15423 [10:06:07<3:11:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11721/15423 [10:06:11<3:11:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11721/15423 [10:06:11<3:11:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11722/15423 [10:06:15<3:11:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11722/15423 [10:06:15<3:11:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11723/15423 [10:06:17<3:11:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11723/15423 [10:06:17<3:11:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11724/15423 [10:06:21<3:11:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11724/15423 [10:06:21<3:11:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11725/15423 [10:06:22<3:11:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11725/15423 [10:06:22<3:11:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11726/15423 [10:06:27<3:11:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11726/15423 [10:06:27<3:11:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11727/15423 [10:06:28<3:11:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11727/15423 [10:06:28<3:11:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11728/15423 [10:06:32<3:11:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11728/15423 [10:06:32<3:11:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11729/15423 [10:06:35<3:11:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11729/15423 [10:06:35<3:11:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11730/15423 [10:06:37<3:10:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11730/15423 [10:06:37<3:10:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11731/15423 [10:06:38<3:10:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11731/15423 [10:06:38<3:10:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11732/15423 [10:06:41<3:10:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11732/15423 [10:06:41<3:10:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11733/15423 [10:06:44<3:10:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11733/15423 [10:06:44<3:10:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11734/15423 [10:06:48<3:10:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11734/15423 [10:06:48<3:10:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11735/15423 [10:06:50<3:10:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11735/15423 [10:06:50<3:10:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11736/15423 [10:06:54<3:10:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11736/15423 [10:06:54<3:10:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11737/15423 [10:06:56<3:10:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11737/15423 [10:06:56<3:10:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11738/15423 [10:07:00<3:10:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11738/15423 [10:07:00<3:10:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11739/15423 [10:07:04<3:10:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11739/15423 [10:07:04<3:10:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11740/15423 [10:07:07<3:10:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11740/15423 [10:07:07<3:10:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11741/15423 [10:07:08<3:10:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11741/15423 [10:07:08<3:10:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11742/15423 [10:07:10<3:10:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11742/15423 [10:07:10<3:10:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11743/15423 [10:07:14<3:10:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11743/15423 [10:07:14<3:10:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11744/15423 [10:07:23<3:10:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11744/15423 [10:07:23<3:10:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11745/15423 [10:07:26<3:10:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11745/15423 [10:07:26<3:10:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11746/15423 [10:07:27<3:10:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11746/15423 [10:07:27<3:10:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11747/15423 [10:07:31<3:10:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11747/15423 [10:07:31<3:10:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11748/15423 [10:07:32<3:10:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11748/15423 [10:07:32<3:10:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11749/15423 [10:07:37<3:10:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11749/15423 [10:07:37<3:10:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11750/15423 [10:07:38<3:09:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11750/15423 [10:07:38<3:09:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11751/15423 [10:07:41<3:09:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11751/15423 [10:07:41<3:09:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11752/15423 [10:07:45<3:09:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11752/15423 [10:07:45<3:09:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11753/15423 [10:07:49<3:09:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11753/15423 [10:07:49<3:09:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11754/15423 [10:07:49<3:09:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11754/15423 [10:07:49<3:09:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11755/15423 [10:07:54<3:09:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11755/15423 [10:07:54<3:09:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11756/15423 [10:07:54<3:09:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11756/15423 [10:07:54<3:09:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11757/15423 [10:07:55<3:09:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11757/15423 [10:07:55<3:09:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11758/15423 [10:07:59<3:09:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11758/15423 [10:07:59<3:09:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11759/15423 [10:08:02<3:09:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11759/15423 [10:08:02<3:09:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11760/15423 [10:08:07<3:09:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11760/15423 [10:08:07<3:09:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11761/15423 [10:08:11<3:09:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11761/15423 [10:08:11<3:09:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11762/15423 [10:08:13<3:09:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11762/15423 [10:08:13<3:09:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11763/15423 [10:08:16<3:09:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11763/15423 [10:08:16<3:09:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11764/15423 [10:08:19<3:09:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11764/15423 [10:08:19<3:09:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11765/15423 [10:08:21<3:09:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11765/15423 [10:08:21<3:09:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11766/15423 [10:08:23<3:09:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11766/15423 [10:08:23<3:09:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11767/15423 [10:08:26<3:09:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11767/15423 [10:08:26<3:09:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11768/15423 [10:08:28<3:08:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11768/15423 [10:08:28<3:08:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11769/15423 [10:08:31<3:08:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11769/15423 [10:08:31<3:08:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11770/15423 [10:08:33<3:08:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11770/15423 [10:08:33<3:08:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11771/15423 [10:08:36<3:08:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11771/15423 [10:08:36<3:08:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11772/15423 [10:08:37<3:08:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11772/15423 [10:08:37<3:08:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11773/15423 [10:08:41<3:08:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11773/15423 [10:08:41<3:08:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11774/15423 [10:08:41<3:08:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11774/15423 [10:08:41<3:08:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11775/15423 [10:08:44<3:08:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11775/15423 [10:08:44<3:08:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11776/15423 [10:09:00<3:08:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11776/15423 [10:09:00<3:08:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11777/15423 [10:09:03<3:08:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11777/15423 [10:09:03<3:08:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11778/15423 [10:09:05<3:08:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11778/15423 [10:09:05<3:08:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11779/15423 [10:09:05<3:08:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11779/15423 [10:09:05<3:08:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11780/15423 [10:09:06<3:08:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11780/15423 [10:09:06<3:08:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11781/15423 [10:09:09<3:08:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11781/15423 [10:09:09<3:08:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11782/15423 [10:09:10<3:08:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11782/15423 [10:09:10<3:08:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11783/15423 [10:09:13<3:08:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11783/15423 [10:09:13<3:08:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11784/15423 [10:09:14<3:08:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11784/15423 [10:09:14<3:08:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11785/15423 [10:09:15<3:08:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11785/15423 [10:09:15<3:08:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11786/15423 [10:09:19<3:08:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11786/15423 [10:09:19<3:08:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11787/15423 [10:09:23<3:07:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11787/15423 [10:09:23<3:07:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11788/15423 [10:09:28<3:07:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11788/15423 [10:09:28<3:07:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11789/15423 [10:09:32<3:07:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11789/15423 [10:09:32<3:07:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11790/15423 [10:09:36<3:07:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11790/15423 [10:09:36<3:07:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11791/15423 [10:09:39<3:07:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11791/15423 [10:09:39<3:07:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11792/15423 [10:09:41<3:07:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11792/15423 [10:09:41<3:07:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11793/15423 [10:09:41<3:07:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11793/15423 [10:09:41<3:07:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11794/15423 [10:09:42<3:07:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11794/15423 [10:09:42<3:07:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11795/15423 [10:09:43<3:07:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11795/15423 [10:09:43<3:07:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11796/15423 [10:09:47<3:07:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11796/15423 [10:09:47<3:07:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11797/15423 [10:09:51<3:07:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11797/15423 [10:09:51<3:07:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  76%|▊| 11798/15423 [10:09:55<3:07:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  76%|▊| 11798/15423 [10:09:55<3:07:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11799/15423 [10:09:56<3:07:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11799/15423 [10:09:56<3:07:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11800/15423 [10:09:57<3:07:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11800/15423 [10:09:57<3:07:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11801/15423 [10:09:58<3:07:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11801/15423 [10:09:58<3:07:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11802/15423 [10:10:00<3:07:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11802/15423 [10:10:00<3:07:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11803/15423 [10:10:04<3:07:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11803/15423 [10:10:04<3:07:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11804/15423 [10:10:05<3:07:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11804/15423 [10:10:05<3:07:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11805/15423 [10:10:06<3:06:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11805/15423 [10:10:06<3:06:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11806/15423 [10:10:11<3:06:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11806/15423 [10:10:11<3:06:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11807/15423 [10:10:13<3:06:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11807/15423 [10:10:13<3:06:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11808/15423 [10:10:38<3:06:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11808/15423 [10:10:38<3:06:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11809/15423 [10:10:40<3:06:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11809/15423 [10:10:40<3:06:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11810/15423 [10:10:41<3:06:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11810/15423 [10:10:41<3:06:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11811/15423 [10:10:44<3:06:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11811/15423 [10:10:44<3:06:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11812/15423 [10:10:48<3:06:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11812/15423 [10:10:48<3:06:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11813/15423 [10:10:52<3:06:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11813/15423 [10:10:52<3:06:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11814/15423 [10:10:54<3:06:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11814/15423 [10:10:54<3:06:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11815/15423 [10:10:58<3:06:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11815/15423 [10:10:58<3:06:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11816/15423 [10:11:02<3:06:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11816/15423 [10:11:02<3:06:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11817/15423 [10:11:06<3:06:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11817/15423 [10:11:06<3:06:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11818/15423 [10:11:10<3:06:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11818/15423 [10:11:10<3:06:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11819/15423 [10:11:14<3:06:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11819/15423 [10:11:14<3:06:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11820/15423 [10:11:16<3:06:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11820/15423 [10:11:16<3:06:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11821/15423 [10:11:18<3:06:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11821/15423 [10:11:18<3:06:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11822/15423 [10:11:20<3:06:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11822/15423 [10:11:20<3:06:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11823/15423 [10:11:22<3:06:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11823/15423 [10:11:22<3:06:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11824/15423 [10:11:25<3:06:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11824/15423 [10:11:25<3:06:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11825/15423 [10:11:29<3:06:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11825/15423 [10:11:29<3:06:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11826/15423 [10:11:33<3:06:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11826/15423 [10:11:33<3:06:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11827/15423 [10:11:35<3:05:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11827/15423 [10:11:35<3:05:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11828/15423 [10:11:37<3:05:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11828/15423 [10:11:37<3:05:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11829/15423 [10:11:41<3:05:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11829/15423 [10:11:41<3:05:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11830/15423 [10:11:45<3:05:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11830/15423 [10:11:45<3:05:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11831/15423 [10:11:46<3:05:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11831/15423 [10:11:46<3:05:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11832/15423 [10:11:49<3:05:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11832/15423 [10:11:49<3:05:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11833/15423 [10:11:53<3:05:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11833/15423 [10:11:53<3:05:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11834/15423 [10:11:58<3:05:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11834/15423 [10:11:58<3:05:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11835/15423 [10:12:01<3:05:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11835/15423 [10:12:01<3:05:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11836/15423 [10:12:02<3:05:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11836/15423 [10:12:02<3:05:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11837/15423 [10:12:02<3:05:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11837/15423 [10:12:02<3:05:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11838/15423 [10:12:04<3:05:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11838/15423 [10:12:04<3:05:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11839/15423 [10:12:08<3:05:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11839/15423 [10:12:08<3:05:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11840/15423 [10:12:16<3:05:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11840/15423 [10:12:16<3:05:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11841/15423 [10:12:20<3:05:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11841/15423 [10:12:20<3:05:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11842/15423 [10:12:24<3:05:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11842/15423 [10:12:24<3:05:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11843/15423 [10:12:26<3:05:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11843/15423 [10:12:26<3:05:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11844/15423 [10:12:29<3:05:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11844/15423 [10:12:29<3:05:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11845/15423 [10:12:30<3:05:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11845/15423 [10:12:30<3:05:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11846/15423 [10:12:34<3:04:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11846/15423 [10:12:34<3:04:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11847/15423 [10:12:35<3:04:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11847/15423 [10:12:35<3:04:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11848/15423 [10:12:38<3:04:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11848/15423 [10:12:38<3:04:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11849/15423 [10:12:42<3:04:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11849/15423 [10:12:42<3:04:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11850/15423 [10:12:44<3:04:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11850/15423 [10:12:44<3:04:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11851/15423 [10:12:47<3:04:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11851/15423 [10:12:47<3:04:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11852/15423 [10:12:51<3:04:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11852/15423 [10:12:51<3:04:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11853/15423 [10:12:53<3:04:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11853/15423 [10:12:53<3:04:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11854/15423 [10:12:55<3:04:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11854/15423 [10:12:55<3:04:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11855/15423 [10:12:57<3:04:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11855/15423 [10:12:57<3:04:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11856/15423 [10:12:58<3:04:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11856/15423 [10:12:58<3:04:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11857/15423 [10:13:01<3:04:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11857/15423 [10:13:01<3:04:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11858/15423 [10:13:03<3:04:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11858/15423 [10:13:03<3:04:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11859/15423 [10:13:06<3:04:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11859/15423 [10:13:06<3:04:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11860/15423 [10:13:06<3:04:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11860/15423 [10:13:06<3:04:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11861/15423 [10:13:09<3:04:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11861/15423 [10:13:09<3:04:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11862/15423 [10:13:13<3:04:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11862/15423 [10:13:13<3:04:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11863/15423 [10:13:16<3:04:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11863/15423 [10:13:16<3:04:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11864/15423 [10:13:20<3:03:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11864/15423 [10:13:20<3:03:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11865/15423 [10:13:21<3:03:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11865/15423 [10:13:21<3:03:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11866/15423 [10:13:23<3:03:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11866/15423 [10:13:23<3:03:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11867/15423 [10:13:25<3:03:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11867/15423 [10:13:25<3:03:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11868/15423 [10:13:27<3:03:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11868/15423 [10:13:27<3:03:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11869/15423 [10:13:31<3:03:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11869/15423 [10:13:31<3:03:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11870/15423 [10:13:36<3:03:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11870/15423 [10:13:36<3:03:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11871/15423 [10:13:39<3:03:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11871/15423 [10:13:39<3:03:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11872/15423 [10:14:01<3:03:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11872/15423 [10:14:01<3:03:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11873/15423 [10:14:05<3:03:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11873/15423 [10:14:05<3:03:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11874/15423 [10:14:09<3:03:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11874/15423 [10:14:09<3:03:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11875/15423 [10:14:12<3:03:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11875/15423 [10:14:12<3:03:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11876/15423 [10:14:15<3:03:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11876/15423 [10:14:15<3:03:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11877/15423 [10:14:18<3:03:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11877/15423 [10:14:18<3:03:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11878/15423 [10:14:22<3:03:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11878/15423 [10:14:22<3:03:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11879/15423 [10:14:24<3:03:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11879/15423 [10:14:24<3:03:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11880/15423 [10:14:26<3:03:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11880/15423 [10:14:26<3:03:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11881/15423 [10:14:29<3:03:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11881/15423 [10:14:29<3:03:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11882/15423 [10:14:30<3:03:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11882/15423 [10:14:30<3:03:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11883/15423 [10:14:34<3:03:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11883/15423 [10:14:34<3:03:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11884/15423 [10:14:38<3:03:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11884/15423 [10:14:38<3:03:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11885/15423 [10:14:42<3:02:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11885/15423 [10:14:42<3:02:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11886/15423 [10:14:44<3:02:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11886/15423 [10:14:44<3:02:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11887/15423 [10:14:46<3:02:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11887/15423 [10:14:46<3:02:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11888/15423 [10:14:50<3:02:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11888/15423 [10:14:50<3:02:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11889/15423 [10:14:54<3:02:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11889/15423 [10:14:54<3:02:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11890/15423 [10:14:58<3:02:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11890/15423 [10:14:58<3:02:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11891/15423 [10:14:59<3:02:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11891/15423 [10:14:59<3:02:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11892/15423 [10:15:00<3:02:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11892/15423 [10:15:00<3:02:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11893/15423 [10:15:01<3:02:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11893/15423 [10:15:01<3:02:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11894/15423 [10:15:05<3:02:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11894/15423 [10:15:05<3:02:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11895/15423 [10:15:07<3:02:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11895/15423 [10:15:07<3:02:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11896/15423 [10:15:10<3:02:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11896/15423 [10:15:10<3:02:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11897/15423 [10:15:11<3:02:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11897/15423 [10:15:11<3:02:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11898/15423 [10:15:14<3:02:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11898/15423 [10:15:14<3:02:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11899/15423 [10:15:17<3:02:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11899/15423 [10:15:17<3:02:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11900/15423 [10:15:19<3:02:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11900/15423 [10:15:19<3:02:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11901/15423 [10:15:21<3:02:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11901/15423 [10:15:21<3:02:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11902/15423 [10:15:23<3:02:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11902/15423 [10:15:23<3:02:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11903/15423 [10:15:24<3:01:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11903/15423 [10:15:24<3:01:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11904/15423 [10:15:33<3:01:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11904/15423 [10:15:33<3:01:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11905/15423 [10:15:35<3:01:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11905/15423 [10:15:35<3:01:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11906/15423 [10:15:36<3:01:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11906/15423 [10:15:36<3:01:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11907/15423 [10:15:38<3:01:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11907/15423 [10:15:38<3:01:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11908/15423 [10:15:41<3:01:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11908/15423 [10:15:41<3:01:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11909/15423 [10:15:43<3:01:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11909/15423 [10:15:43<3:01:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11910/15423 [10:15:44<3:01:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11910/15423 [10:15:44<3:01:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11911/15423 [10:15:44<3:01:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11911/15423 [10:15:44<3:01:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11912/15423 [10:15:49<3:01:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11912/15423 [10:15:49<3:01:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11913/15423 [10:15:52<3:01:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11913/15423 [10:15:52<3:01:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11914/15423 [10:15:55<3:01:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11914/15423 [10:15:55<3:01:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11915/15423 [10:15:56<3:01:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11915/15423 [10:15:56<3:01:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11916/15423 [10:15:58<3:01:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11916/15423 [10:15:58<3:01:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11917/15423 [10:16:01<3:01:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11917/15423 [10:16:01<3:01:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11918/15423 [10:16:05<3:01:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11918/15423 [10:16:05<3:01:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11919/15423 [10:16:08<3:01:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11919/15423 [10:16:08<3:01:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11920/15423 [10:16:11<3:01:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11920/15423 [10:16:11<3:01:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11921/15423 [10:16:16<3:01:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11921/15423 [10:16:16<3:01:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11922/15423 [10:16:19<3:00:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11922/15423 [10:16:19<3:00:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11923/15423 [10:16:22<3:00:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11923/15423 [10:16:22<3:00:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11924/15423 [10:16:24<3:00:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11924/15423 [10:16:24<3:00:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11925/15423 [10:16:28<3:00:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11925/15423 [10:16:28<3:00:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11926/15423 [10:16:32<3:00:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11926/15423 [10:16:32<3:00:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11927/15423 [10:16:33<3:00:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11927/15423 [10:16:33<3:00:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11928/15423 [10:16:37<3:00:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11928/15423 [10:16:37<3:00:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11929/15423 [10:16:40<3:00:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11929/15423 [10:16:40<3:00:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11930/15423 [10:16:44<3:00:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11930/15423 [10:16:44<3:00:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11931/15423 [10:16:46<3:00:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11931/15423 [10:16:46<3:00:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11932/15423 [10:16:49<3:00:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11932/15423 [10:16:49<3:00:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11933/15423 [10:16:52<3:00:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11933/15423 [10:16:52<3:00:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11934/15423 [10:16:56<3:00:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11934/15423 [10:16:56<3:00:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11935/15423 [10:16:57<3:00:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11935/15423 [10:16:57<3:00:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11936/15423 [10:17:19<3:00:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11936/15423 [10:17:19<3:00:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11937/15423 [10:17:22<3:00:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11937/15423 [10:17:22<3:00:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11938/15423 [10:17:24<3:00:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11938/15423 [10:17:24<3:00:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11939/15423 [10:17:27<3:00:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11939/15423 [10:17:27<3:00:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11940/15423 [10:17:30<3:00:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11940/15423 [10:17:30<3:00:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11941/15423 [10:17:30<3:00:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11941/15423 [10:17:30<3:00:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11942/15423 [10:17:32<3:00:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11942/15423 [10:17:32<3:00:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11943/15423 [10:17:35<2:59:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11943/15423 [10:17:35<2:59:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11944/15423 [10:17:36<2:59:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11944/15423 [10:17:36<2:59:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11945/15423 [10:17:41<2:59:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11945/15423 [10:17:41<2:59:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11946/15423 [10:17:43<2:59:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11946/15423 [10:17:43<2:59:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11947/15423 [10:17:48<2:59:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11947/15423 [10:17:48<2:59:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11948/15423 [10:17:52<2:59:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11948/15423 [10:17:52<2:59:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11949/15423 [10:17:56<2:59:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11949/15423 [10:17:56<2:59:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11950/15423 [10:17:58<2:59:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11950/15423 [10:17:58<2:59:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11951/15423 [10:18:02<2:59:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  77%|▊| 11951/15423 [10:18:02<2:59:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11952/15423 [10:18:05<2:59:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  77%|▊| 11952/15423 [10:18:05<2:59:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11953/15423 [10:18:10<2:59:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11953/15423 [10:18:10<2:59:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11954/15423 [10:18:14<2:59:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11954/15423 [10:18:14<2:59:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11955/15423 [10:18:17<2:59:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11955/15423 [10:18:17<2:59:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11956/15423 [10:18:19<2:59:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11956/15423 [10:18:19<2:59:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11957/15423 [10:18:20<2:59:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11957/15423 [10:18:20<2:59:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11958/15423 [10:18:22<2:59:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11958/15423 [10:18:22<2:59:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11959/15423 [10:18:26<2:59:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11959/15423 [10:18:26<2:59:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11960/15423 [10:18:30<2:59:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11960/15423 [10:18:30<2:59:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11961/15423 [10:18:33<2:59:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11961/15423 [10:18:33<2:59:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11962/15423 [10:18:35<2:58:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11962/15423 [10:18:35<2:58:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11963/15423 [10:18:37<2:58:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11963/15423 [10:18:37<2:58:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11964/15423 [10:18:38<2:58:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11964/15423 [10:18:38<2:58:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11965/15423 [10:18:40<2:58:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11965/15423 [10:18:40<2:58:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11966/15423 [10:18:45<2:58:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11966/15423 [10:18:45<2:58:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11967/15423 [10:18:48<2:58:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11967/15423 [10:18:48<2:58:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11968/15423 [10:18:55<2:58:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11968/15423 [10:18:55<2:58:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11969/15423 [10:18:56<2:58:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11969/15423 [10:18:56<2:58:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11970/15423 [10:18:57<2:58:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11970/15423 [10:18:57<2:58:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11971/15423 [10:19:00<2:58:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11971/15423 [10:19:00<2:58:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11972/15423 [10:19:04<2:58:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11972/15423 [10:19:04<2:58:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11973/15423 [10:19:09<2:58:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11973/15423 [10:19:09<2:58:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11974/15423 [10:19:13<2:58:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11974/15423 [10:19:13<2:58:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11975/15423 [10:19:17<2:58:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11975/15423 [10:19:17<2:58:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11976/15423 [10:19:20<2:58:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11976/15423 [10:19:20<2:58:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11977/15423 [10:19:23<2:58:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11977/15423 [10:19:23<2:58:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11978/15423 [10:19:26<2:58:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11978/15423 [10:19:26<2:58:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11979/15423 [10:19:30<2:58:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11979/15423 [10:19:30<2:58:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11980/15423 [10:19:31<2:58:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11980/15423 [10:19:31<2:58:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11981/15423 [10:19:35<2:58:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11981/15423 [10:19:35<2:58:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11982/15423 [10:19:39<2:57:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11982/15423 [10:19:39<2:57:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11983/15423 [10:19:40<2:57:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11983/15423 [10:19:40<2:57:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11984/15423 [10:19:44<2:57:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11984/15423 [10:19:44<2:57:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11985/15423 [10:19:44<2:57:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11985/15423 [10:19:44<2:57:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11986/15423 [10:19:48<2:57:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11986/15423 [10:19:48<2:57:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11987/15423 [10:19:51<2:57:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11987/15423 [10:19:51<2:57:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11988/15423 [10:19:55<2:57:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11988/15423 [10:19:55<2:57:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11989/15423 [10:19:55<2:57:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11989/15423 [10:19:55<2:57:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11990/15423 [10:19:58<2:57:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11990/15423 [10:19:58<2:57:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11991/15423 [10:20:00<2:57:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11991/15423 [10:20:00<2:57:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11992/15423 [10:20:05<2:57:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11992/15423 [10:20:05<2:57:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11993/15423 [10:20:08<2:57:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11993/15423 [10:20:08<2:57:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11994/15423 [10:20:11<2:57:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11994/15423 [10:20:11<2:57:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11995/15423 [10:20:14<2:57:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11995/15423 [10:20:14<2:57:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11996/15423 [10:20:16<2:57:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11996/15423 [10:20:16<2:57:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11997/15423 [10:20:20<2:57:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11997/15423 [10:20:20<2:57:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11998/15423 [10:20:24<2:57:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11998/15423 [10:20:24<2:57:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 11999/15423 [10:20:26<2:57:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 11999/15423 [10:20:26<2:57:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12000/15423 [10:20:35<2:57:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12000/15423 [10:20:35<2:57:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12001/15423 [10:20:56<2:57:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12001/15423 [10:20:56<2:57:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12002/15423 [10:20:57<2:56:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12002/15423 [10:20:57<2:56:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12003/15423 [10:21:01<2:56:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12003/15423 [10:21:01<2:56:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12004/15423 [10:21:03<2:56:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12004/15423 [10:21:03<2:56:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12005/15423 [10:21:06<2:56:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12005/15423 [10:21:06<2:56:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12006/15423 [10:21:08<2:56:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12006/15423 [10:21:08<2:56:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12007/15423 [10:21:10<2:56:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12007/15423 [10:21:10<2:56:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12008/15423 [10:21:11<2:56:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12008/15423 [10:21:11<2:56:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12009/15423 [10:21:14<2:56:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12009/15423 [10:21:14<2:56:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12010/15423 [10:21:16<2:56:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12010/15423 [10:21:16<2:56:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12011/15423 [10:21:20<2:56:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12011/15423 [10:21:20<2:56:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12012/15423 [10:21:21<2:56:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12012/15423 [10:21:21<2:56:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12013/15423 [10:21:26<2:56:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12013/15423 [10:21:26<2:56:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12014/15423 [10:21:26<2:56:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12014/15423 [10:21:26<2:56:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12015/15423 [10:21:29<2:56:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12015/15423 [10:21:29<2:56:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12016/15423 [10:21:31<2:56:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12016/15423 [10:21:31<2:56:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12017/15423 [10:21:31<2:56:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12017/15423 [10:21:31<2:56:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12018/15423 [10:21:36<2:56:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12018/15423 [10:21:36<2:56:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12019/15423 [10:21:40<2:56:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12019/15423 [10:21:40<2:56:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12020/15423 [10:21:43<2:56:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12020/15423 [10:21:43<2:56:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|���| 12021/15423 [10:21:46<2:55:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12021/15423 [10:21:46<2:55:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12022/15423 [10:21:48<2:55:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12022/15423 [10:21:48<2:55:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12023/15423 [10:21:51<2:55:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12023/15423 [10:21:51<2:55:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12024/15423 [10:21:51<2:55:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12024/15423 [10:21:51<2:55:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12025/15423 [10:21:54<2:55:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12025/15423 [10:21:54<2:55:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12026/15423 [10:21:56<2:55:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12026/15423 [10:21:56<2:55:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12027/15423 [10:21:58<2:55:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12027/15423 [10:21:58<2:55:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12028/15423 [10:22:00<2:55:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12028/15423 [10:22:00<2:55:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12029/15423 [10:22:02<2:55:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12029/15423 [10:22:02<2:55:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12030/15423 [10:22:04<2:55:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12030/15423 [10:22:04<2:55:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12031/15423 [10:22:08<2:55:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12031/15423 [10:22:08<2:55:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12032/15423 [10:22:29<2:55:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12032/15423 [10:22:29<2:55:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12033/15423 [10:22:32<2:55:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12033/15423 [10:22:32<2:55:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12034/15423 [10:22:35<2:55:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12034/15423 [10:22:35<2:55:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12035/15423 [10:22:37<2:55:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12035/15423 [10:22:37<2:55:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12036/15423 [10:22:38<2:55:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12036/15423 [10:22:38<2:55:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12037/15423 [10:22:42<2:55:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12037/15423 [10:22:42<2:55:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12038/15423 [10:22:46<2:55:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12038/15423 [10:22:46<2:55:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12039/15423 [10:22:48<2:55:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12039/15423 [10:22:48<2:55:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12040/15423 [10:22:50<2:55:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12040/15423 [10:22:50<2:55:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12041/15423 [10:22:51<2:54:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12041/15423 [10:22:51<2:54:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12042/15423 [10:22:52<2:54:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12042/15423 [10:22:52<2:54:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12043/15423 [10:22:57<2:54:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12043/15423 [10:22:57<2:54:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12044/15423 [10:23:01<2:54:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12044/15423 [10:23:01<2:54:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12045/15423 [10:23:03<2:54:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12045/15423 [10:23:03<2:54:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12046/15423 [10:23:05<2:54:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12046/15423 [10:23:05<2:54:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12047/15423 [10:23:08<2:54:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12047/15423 [10:23:08<2:54:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12048/15423 [10:23:09<2:54:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12048/15423 [10:23:09<2:54:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12049/15423 [10:23:13<2:54:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12049/15423 [10:23:13<2:54:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12050/15423 [10:23:15<2:54:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12050/15423 [10:23:15<2:54:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12051/15423 [10:23:19<2:54:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12051/15423 [10:23:19<2:54:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12052/15423 [10:23:23<2:54:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12052/15423 [10:23:23<2:54:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12053/15423 [10:23:27<2:54:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12053/15423 [10:23:27<2:54:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12054/15423 [10:23:29<2:54:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12054/15423 [10:23:29<2:54:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12055/15423 [10:23:32<2:54:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12055/15423 [10:23:32<2:54:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12056/15423 [10:23:33<2:54:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12056/15423 [10:23:33<2:54:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12057/15423 [10:23:36<2:54:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12057/15423 [10:23:36<2:54:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12058/15423 [10:23:36<2:54:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12058/15423 [10:23:36<2:54:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12059/15423 [10:23:38<2:53:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12059/15423 [10:23:38<2:53:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12060/15423 [10:23:42<2:53:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12060/15423 [10:23:42<2:53:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12061/15423 [10:23:45<2:53:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12061/15423 [10:23:45<2:53:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12062/15423 [10:23:46<2:53:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12062/15423 [10:23:46<2:53:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12063/15423 [10:23:47<2:53:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12063/15423 [10:23:47<2:53:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12064/15423 [10:24:04<2:53:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12064/15423 [10:24:04<2:53:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12065/15423 [10:24:07<2:53:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12065/15423 [10:24:07<2:53:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12066/15423 [10:24:08<2:53:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12066/15423 [10:24:08<2:53:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12067/15423 [10:24:12<2:53:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12067/15423 [10:24:12<2:53:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12068/15423 [10:24:13<2:53:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12068/15423 [10:24:13<2:53:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12069/15423 [10:24:17<2:53:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12069/15423 [10:24:17<2:53:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12070/15423 [10:24:21<2:53:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12070/15423 [10:24:21<2:53:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12071/15423 [10:24:25<2:53:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12071/15423 [10:24:25<2:53:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12072/15423 [10:24:30<2:53:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12072/15423 [10:24:30<2:53:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12073/15423 [10:24:32<2:53:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12073/15423 [10:24:32<2:53:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12074/15423 [10:24:33<2:53:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12074/15423 [10:24:33<2:53:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12075/15423 [10:24:34<2:53:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12075/15423 [10:24:34<2:53:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12076/15423 [10:24:37<2:53:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12076/15423 [10:24:37<2:53:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12077/15423 [10:24:41<2:53:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12077/15423 [10:24:41<2:53:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12078/15423 [10:24:42<2:53:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12078/15423 [10:24:42<2:53:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12079/15423 [10:24:46<2:52:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12079/15423 [10:24:46<2:52:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12080/15423 [10:24:50<2:52:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12080/15423 [10:24:50<2:52:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12081/15423 [10:24:51<2:52:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12081/15423 [10:24:51<2:52:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12082/15423 [10:24:54<2:52:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12082/15423 [10:24:54<2:52:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12083/15423 [10:24:58<2:52:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12083/15423 [10:24:58<2:52:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12084/15423 [10:25:02<2:52:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12084/15423 [10:25:02<2:52:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12085/15423 [10:25:04<2:52:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12085/15423 [10:25:04<2:52:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12086/15423 [10:25:07<2:52:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12086/15423 [10:25:07<2:52:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12087/15423 [10:25:08<2:52:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12087/15423 [10:25:08<2:52:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12088/15423 [10:25:11<2:52:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12088/15423 [10:25:11<2:52:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12089/15423 [10:25:12<2:52:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12089/15423 [10:25:12<2:52:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12090/15423 [10:25:13<2:52:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12090/15423 [10:25:13<2:52:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12091/15423 [10:25:14<2:52:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12091/15423 [10:25:14<2:52:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12092/15423 [10:25:17<2:52:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12092/15423 [10:25:17<2:52:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12093/15423 [10:25:18<2:52:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12093/15423 [10:25:18<2:52:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12094/15423 [10:25:22<2:52:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12094/15423 [10:25:22<2:52:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12095/15423 [10:25:24<2:52:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12095/15423 [10:25:24<2:52:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12096/15423 [10:25:46<2:52:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12096/15423 [10:25:46<2:52:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12097/15423 [10:25:50<2:52:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12097/15423 [10:25:50<2:52:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12098/15423 [10:25:54<2:52:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12098/15423 [10:25:54<2:52:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12099/15423 [10:25:55<2:51:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12099/15423 [10:25:55<2:51:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12100/15423 [10:25:58<2:51:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12100/15423 [10:25:58<2:51:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12101/15423 [10:26:02<2:51:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12101/15423 [10:26:02<2:51:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12102/15423 [10:26:05<2:51:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12102/15423 [10:26:05<2:51:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12103/15423 [10:26:09<2:51:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12103/15423 [10:26:09<2:51:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12104/15423 [10:26:11<2:51:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12104/15423 [10:26:11<2:51:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12105/15423 [10:26:15<2:51:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12105/15423 [10:26:15<2:51:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12106/15423 [10:26:18<2:51:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12106/15423 [10:26:18<2:51:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  78%|▊| 12107/15423 [10:26:22<2:51:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  78%|▊| 12107/15423 [10:26:22<2:51:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12108/15423 [10:26:24<2:51:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12108/15423 [10:26:24<2:51:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12109/15423 [10:26:25<2:51:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12109/15423 [10:26:25<2:51:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12110/15423 [10:26:29<2:51:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12110/15423 [10:26:29<2:51:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12111/15423 [10:26:31<2:51:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12111/15423 [10:26:31<2:51:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12112/15423 [10:26:33<2:51:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12112/15423 [10:26:33<2:51:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12113/15423 [10:26:34<2:51:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12113/15423 [10:26:34<2:51:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12114/15423 [10:26:36<2:51:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12114/15423 [10:26:36<2:51:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12115/15423 [10:26:40<2:51:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12115/15423 [10:26:40<2:51:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12116/15423 [10:26:43<2:51:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12116/15423 [10:26:43<2:51:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12117/15423 [10:26:45<2:51:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12117/15423 [10:26:45<2:51:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12118/15423 [10:26:48<2:50:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12118/15423 [10:26:48<2:50:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12119/15423 [10:26:52<2:50:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12119/15423 [10:26:52<2:50:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12120/15423 [10:26:54<2:50:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12120/15423 [10:26:54<2:50:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12121/15423 [10:26:58<2:50:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12121/15423 [10:26:58<2:50:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12122/15423 [10:27:01<2:50:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12122/15423 [10:27:01<2:50:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12123/15423 [10:27:04<2:50:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12123/15423 [10:27:04<2:50:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12124/15423 [10:27:04<2:50:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12124/15423 [10:27:04<2:50:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12125/15423 [10:27:09<2:50:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12125/15423 [10:27:09<2:50:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12126/15423 [10:27:11<2:50:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12126/15423 [10:27:11<2:50:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12127/15423 [10:27:15<2:50:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12127/15423 [10:27:15<2:50:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12128/15423 [10:27:22<2:50:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12128/15423 [10:27:22<2:50:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12129/15423 [10:27:27<2:50:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12129/15423 [10:27:27<2:50:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12130/15423 [10:27:28<2:50:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12130/15423 [10:27:28<2:50:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12131/15423 [10:27:30<2:50:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12131/15423 [10:27:30<2:50:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12132/15423 [10:27:34<2:50:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12132/15423 [10:27:34<2:50:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12133/15423 [10:27:37<2:50:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12133/15423 [10:27:37<2:50:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12134/15423 [10:27:41<2:50:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12134/15423 [10:27:41<2:50:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12135/15423 [10:27:45<2:50:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12135/15423 [10:27:45<2:50:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12136/15423 [10:27:48<2:50:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12136/15423 [10:27:48<2:50:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12137/15423 [10:27:51<2:49:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12137/15423 [10:27:51<2:49:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12138/15423 [10:27:53<2:49:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12138/15423 [10:27:53<2:49:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12139/15423 [10:27:57<2:49:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12139/15423 [10:27:57<2:49:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12140/15423 [10:28:00<2:49:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12140/15423 [10:28:00<2:49:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12141/15423 [10:28:01<2:49:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12141/15423 [10:28:01<2:49:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12142/15423 [10:28:02<2:49:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12142/15423 [10:28:02<2:49:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12143/15423 [10:28:05<2:49:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12143/15423 [10:28:05<2:49:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12144/15423 [10:28:08<2:49:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12144/15423 [10:28:08<2:49:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12145/15423 [10:28:10<2:49:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12145/15423 [10:28:10<2:49:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12146/15423 [10:28:11<2:49:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12146/15423 [10:28:11<2:49:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12147/15423 [10:28:16<2:49:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12147/15423 [10:28:16<2:49:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12148/15423 [10:28:20<2:49:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12148/15423 [10:28:20<2:49:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12149/15423 [10:28:23<2:49:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12149/15423 [10:28:23<2:49:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12150/15423 [10:28:25<2:49:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12150/15423 [10:28:25<2:49:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12151/15423 [10:28:28<2:49:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12151/15423 [10:28:28<2:49:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12152/15423 [10:28:32<2:49:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12152/15423 [10:28:32<2:49:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12153/15423 [10:28:36<2:49:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12153/15423 [10:28:36<2:49:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12154/15423 [10:28:37<2:49:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12154/15423 [10:28:37<2:49:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12155/15423 [10:28:39<2:49:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12155/15423 [10:28:39<2:49:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12156/15423 [10:28:41<2:48:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12156/15423 [10:28:41<2:48:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12157/15423 [10:28:44<2:48:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12157/15423 [10:28:44<2:48:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12158/15423 [10:28:46<2:48:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12158/15423 [10:28:46<2:48:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12159/15423 [10:28:47<2:48:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12159/15423 [10:28:47<2:48:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12160/15423 [10:29:00<2:48:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12160/15423 [10:29:00<2:48:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12161/15423 [10:29:01<2:48:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12161/15423 [10:29:01<2:48:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12162/15423 [10:29:02<2:48:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12162/15423 [10:29:02<2:48:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12163/15423 [10:29:04<2:48:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12163/15423 [10:29:04<2:48:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12164/15423 [10:29:05<2:48:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12164/15423 [10:29:05<2:48:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12165/15423 [10:29:09<2:48:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12165/15423 [10:29:09<2:48:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12166/15423 [10:29:11<2:48:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12166/15423 [10:29:11<2:48:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12167/15423 [10:29:14<2:48:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12167/15423 [10:29:14<2:48:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12168/15423 [10:29:16<2:48:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12168/15423 [10:29:16<2:48:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12169/15423 [10:29:19<2:48:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12169/15423 [10:29:19<2:48:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12170/15423 [10:29:21<2:48:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12170/15423 [10:29:21<2:48:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12171/15423 [10:29:24<2:48:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12171/15423 [10:29:24<2:48:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12172/15423 [10:29:26<2:48:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12172/15423 [10:29:26<2:48:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12173/15423 [10:29:27<2:48:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12173/15423 [10:29:27<2:48:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12174/15423 [10:29:30<2:48:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12174/15423 [10:29:30<2:48:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12175/15423 [10:29:33<2:47:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12175/15423 [10:29:33<2:47:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12176/15423 [10:29:35<2:47:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12176/15423 [10:29:35<2:47:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12177/15423 [10:29:39<2:47:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12177/15423 [10:29:39<2:47:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12178/15423 [10:29:42<2:47:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12178/15423 [10:29:42<2:47:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12179/15423 [10:29:47<2:47:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12179/15423 [10:29:47<2:47:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12180/15423 [10:29:50<2:47:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12180/15423 [10:29:50<2:47:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12181/15423 [10:29:52<2:47:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12181/15423 [10:29:52<2:47:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12182/15423 [10:29:56<2:47:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12182/15423 [10:29:56<2:47:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12183/15423 [10:29:58<2:47:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12183/15423 [10:29:58<2:47:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12184/15423 [10:30:02<2:47:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12184/15423 [10:30:02<2:47:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12185/15423 [10:30:04<2:47:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12185/15423 [10:30:04<2:47:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12186/15423 [10:30:05<2:47:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12186/15423 [10:30:05<2:47:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12187/15423 [10:30:10<2:47:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12187/15423 [10:30:10<2:47:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12188/15423 [10:30:13<2:47:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12188/15423 [10:30:13<2:47:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12189/15423 [10:30:16<2:47:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12189/15423 [10:30:16<2:47:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12190/15423 [10:30:20<2:47:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12190/15423 [10:30:20<2:47:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12191/15423 [10:30:23<2:47:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12191/15423 [10:30:23<2:47:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12192/15423 [10:30:35<2:47:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12192/15423 [10:30:35<2:47:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12193/15423 [10:30:39<2:47:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12193/15423 [10:30:39<2:47:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12194/15423 [10:30:43<2:47:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12194/15423 [10:30:43<2:47:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12195/15423 [10:30:47<2:46:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12195/15423 [10:30:47<2:46:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12196/15423 [10:30:49<2:46:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12196/15423 [10:30:49<2:46:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12197/15423 [10:30:51<2:46:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12197/15423 [10:30:51<2:46:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12198/15423 [10:30:54<2:46:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12198/15423 [10:30:54<2:46:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12199/15423 [10:30:56<2:46:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12199/15423 [10:30:56<2:46:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12200/15423 [10:30:57<2:46:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12200/15423 [10:30:57<2:46:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12201/15423 [10:31:00<2:46:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12201/15423 [10:31:00<2:46:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12202/15423 [10:31:04<2:46:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12202/15423 [10:31:04<2:46:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12203/15423 [10:31:07<2:46:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12203/15423 [10:31:07<2:46:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12204/15423 [10:31:08<2:46:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12204/15423 [10:31:08<2:46:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12205/15423 [10:31:12<2:46:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12205/15423 [10:31:12<2:46:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12206/15423 [10:31:12<2:46:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12206/15423 [10:31:12<2:46:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12207/15423 [10:31:15<2:46:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12207/15423 [10:31:15<2:46:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12208/15423 [10:31:15<2:46:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12208/15423 [10:31:15<2:46:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12209/15423 [10:31:18<2:46:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12209/15423 [10:31:18<2:46:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12210/15423 [10:31:20<2:46:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12210/15423 [10:31:20<2:46:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12211/15423 [10:31:23<2:46:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12211/15423 [10:31:23<2:46:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12212/15423 [10:31:24<2:46:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12212/15423 [10:31:24<2:46:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12213/15423 [10:31:29<2:45:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12213/15423 [10:31:29<2:45:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12214/15423 [10:31:30<2:45:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12214/15423 [10:31:30<2:45:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12215/15423 [10:31:32<2:45:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12215/15423 [10:31:32<2:45:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12216/15423 [10:31:36<2:45:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12216/15423 [10:31:36<2:45:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12217/15423 [10:31:39<2:45:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12217/15423 [10:31:39<2:45:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12218/15423 [10:31:43<2:45:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12218/15423 [10:31:43<2:45:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12219/15423 [10:31:47<2:45:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12219/15423 [10:31:47<2:45:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12220/15423 [10:31:48<2:45:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12220/15423 [10:31:48<2:45:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12221/15423 [10:31:52<2:45:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12221/15423 [10:31:52<2:45:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12222/15423 [10:31:55<2:45:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12222/15423 [10:31:55<2:45:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12223/15423 [10:31:56<2:45:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12223/15423 [10:31:56<2:45:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12224/15423 [10:32:13<2:45:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12224/15423 [10:32:13<2:45:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12225/15423 [10:32:16<2:45:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12225/15423 [10:32:16<2:45:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12226/15423 [10:32:16<2:45:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12226/15423 [10:32:16<2:45:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12227/15423 [10:32:20<2:45:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12227/15423 [10:32:20<2:45:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12228/15423 [10:32:22<2:45:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12228/15423 [10:32:22<2:45:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12229/15423 [10:32:24<2:45:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12229/15423 [10:32:24<2:45:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12230/15423 [10:32:28<2:45:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12230/15423 [10:32:28<2:45:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12231/15423 [10:32:32<2:45:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12231/15423 [10:32:32<2:45:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12232/15423 [10:32:36<2:45:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12232/15423 [10:32:36<2:45:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12233/15423 [10:32:40<2:44:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12233/15423 [10:32:40<2:44:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12234/15423 [10:32:43<2:44:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12234/15423 [10:32:43<2:44:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12235/15423 [10:32:47<2:44:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12235/15423 [10:32:47<2:44:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12236/15423 [10:32:48<2:44:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12236/15423 [10:32:48<2:44:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12237/15423 [10:32:50<2:44:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12237/15423 [10:32:50<2:44:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12238/15423 [10:32:52<2:44:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12238/15423 [10:32:52<2:44:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12239/15423 [10:32:55<2:44:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12239/15423 [10:32:55<2:44:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12240/15423 [10:32:57<2:44:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12240/15423 [10:32:57<2:44:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12241/15423 [10:33:01<2:44:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12241/15423 [10:33:01<2:44:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12242/15423 [10:33:03<2:44:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12242/15423 [10:33:03<2:44:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12243/15423 [10:33:04<2:44:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12243/15423 [10:33:04<2:44:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12244/15423 [10:33:04<2:44:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12244/15423 [10:33:04<2:44:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12245/15423 [10:33:08<2:44:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12245/15423 [10:33:08<2:44:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12246/15423 [10:33:10<2:44:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12246/15423 [10:33:10<2:44:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12247/15423 [10:33:12<2:44:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12247/15423 [10:33:12<2:44:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12248/15423 [10:33:15<2:44:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12248/15423 [10:33:15<2:44:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12249/15423 [10:33:16<2:44:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12249/15423 [10:33:16<2:44:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12250/15423 [10:33:20<2:44:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12250/15423 [10:33:20<2:44:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12251/15423 [10:33:22<2:43:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12251/15423 [10:33:22<2:43:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12252/15423 [10:33:25<2:43:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12252/15423 [10:33:25<2:43:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12253/15423 [10:33:29<2:43:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12253/15423 [10:33:29<2:43:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12254/15423 [10:33:30<2:43:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12254/15423 [10:33:30<2:43:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12255/15423 [10:33:32<2:43:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12255/15423 [10:33:32<2:43:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12256/15423 [10:33:54<2:43:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12256/15423 [10:33:54<2:43:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12257/15423 [10:33:58<2:43:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12257/15423 [10:33:58<2:43:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12258/15423 [10:34:01<2:43:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12258/15423 [10:34:01<2:43:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12259/15423 [10:34:02<2:43:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12259/15423 [10:34:02<2:43:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12260/15423 [10:34:04<2:43:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12260/15423 [10:34:04<2:43:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  79%|▊| 12261/15423 [10:34:05<2:43:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  79%|▊| 12261/15423 [10:34:05<2:43:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12262/15423 [10:34:08<2:43:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12262/15423 [10:34:08<2:43:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12263/15423 [10:34:10<2:43:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12263/15423 [10:34:10<2:43:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12264/15423 [10:34:12<2:43:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12264/15423 [10:34:12<2:43:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12265/15423 [10:34:14<2:43:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12265/15423 [10:34:14<2:43:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12266/15423 [10:34:16<2:43:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12266/15423 [10:34:16<2:43:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12267/15423 [10:34:20<2:43:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12267/15423 [10:34:20<2:43:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12268/15423 [10:34:22<2:43:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12268/15423 [10:34:22<2:43:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12269/15423 [10:34:25<2:43:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12269/15423 [10:34:25<2:43:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12270/15423 [10:34:29<2:43:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12270/15423 [10:34:29<2:43:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12271/15423 [10:34:33<2:42:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12271/15423 [10:34:33<2:42:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12272/15423 [10:34:37<2:42:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12272/15423 [10:34:37<2:42:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12273/15423 [10:34:41<2:42:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12273/15423 [10:34:41<2:42:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12274/15423 [10:34:43<2:42:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12274/15423 [10:34:43<2:42:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12275/15423 [10:34:48<2:42:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12275/15423 [10:34:48<2:42:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12276/15423 [10:34:51<2:42:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12276/15423 [10:34:51<2:42:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12277/15423 [10:34:53<2:42:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12277/15423 [10:34:53<2:42:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12278/15423 [10:34:55<2:42:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12278/15423 [10:34:55<2:42:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12279/15423 [10:34:59<2:42:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12279/15423 [10:34:59<2:42:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12280/15423 [10:35:00<2:42:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12280/15423 [10:35:00<2:42:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12281/15423 [10:35:04<2:42:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12281/15423 [10:35:04<2:42:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12282/15423 [10:35:05<2:42:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12282/15423 [10:35:05<2:42:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12283/15423 [10:35:06<2:42:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12283/15423 [10:35:06<2:42:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12284/15423 [10:35:09<2:42:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12284/15423 [10:35:09<2:42:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12285/15423 [10:35:11<2:42:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12285/15423 [10:35:11<2:42:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12286/15423 [10:35:16<2:42:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12286/15423 [10:35:16<2:42:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12287/15423 [10:35:20<2:42:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12287/15423 [10:35:20<2:42:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12288/15423 [10:35:29<2:42:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12288/15423 [10:35:29<2:42:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12289/15423 [10:35:32<2:42:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12289/15423 [10:35:32<2:42:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12290/15423 [10:35:36<2:42:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12290/15423 [10:35:36<2:42:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12291/15423 [10:35:40<2:41:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12291/15423 [10:35:40<2:41:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12292/15423 [10:35:42<2:41:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12292/15423 [10:35:42<2:41:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12293/15423 [10:35:44<2:41:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12293/15423 [10:35:44<2:41:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12294/15423 [10:35:46<2:41:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12294/15423 [10:35:46<2:41:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12295/15423 [10:35:50<2:41:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12295/15423 [10:35:50<2:41:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12296/15423 [10:35:54<2:41:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12296/15423 [10:35:54<2:41:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12297/15423 [10:35:57<2:41:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12297/15423 [10:35:57<2:41:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12298/15423 [10:36:02<2:41:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12298/15423 [10:36:02<2:41:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12299/15423 [10:36:05<2:41:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12299/15423 [10:36:05<2:41:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12300/15423 [10:36:08<2:41:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12300/15423 [10:36:08<2:41:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12301/15423 [10:36:10<2:41:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12301/15423 [10:36:10<2:41:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12302/15423 [10:36:14<2:41:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12302/15423 [10:36:14<2:41:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12303/15423 [10:36:17<2:41:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12303/15423 [10:36:17<2:41:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12304/15423 [10:36:21<2:41:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12304/15423 [10:36:21<2:41:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12305/15423 [10:36:22<2:41:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12305/15423 [10:36:22<2:41:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12306/15423 [10:36:24<2:41:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12306/15423 [10:36:24<2:41:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12307/15423 [10:36:28<2:41:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12307/15423 [10:36:28<2:41:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12308/15423 [10:36:32<2:41:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12308/15423 [10:36:32<2:41:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12309/15423 [10:36:36<2:41:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12309/15423 [10:36:36<2:41:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12310/15423 [10:36:39<2:41:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12310/15423 [10:36:39<2:41:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12311/15423 [10:36:41<2:40:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12311/15423 [10:36:41<2:40:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12312/15423 [10:36:45<2:40:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12312/15423 [10:36:45<2:40:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12313/15423 [10:36:50<2:40:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12313/15423 [10:36:50<2:40:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12314/15423 [10:36:53<2:40:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12314/15423 [10:36:53<2:40:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12315/15423 [10:36:55<2:40:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12315/15423 [10:36:55<2:40:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12316/15423 [10:36:55<2:40:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12316/15423 [10:36:55<2:40:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12317/15423 [10:37:00<2:40:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12317/15423 [10:37:00<2:40:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12318/15423 [10:37:04<2:40:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12318/15423 [10:37:04<2:40:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12319/15423 [10:37:08<2:40:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12319/15423 [10:37:08<2:40:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12320/15423 [10:37:18<2:40:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12320/15423 [10:37:18<2:40:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12321/15423 [10:37:23<2:40:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12321/15423 [10:37:23<2:40:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12322/15423 [10:37:23<2:40:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12322/15423 [10:37:23<2:40:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12323/15423 [10:37:28<2:40:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12323/15423 [10:37:28<2:40:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12324/15423 [10:37:30<2:40:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12324/15423 [10:37:30<2:40:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12325/15423 [10:37:33<2:40:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12325/15423 [10:37:33<2:40:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12326/15423 [10:37:35<2:40:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12326/15423 [10:37:35<2:40:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12327/15423 [10:37:36<2:40:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12327/15423 [10:37:36<2:40:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12328/15423 [10:37:39<2:40:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12328/15423 [10:37:39<2:40:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12329/15423 [10:37:42<2:40:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12329/15423 [10:37:42<2:40:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12330/15423 [10:37:44<2:39:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12330/15423 [10:37:44<2:39:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12331/15423 [10:37:47<2:39:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12331/15423 [10:37:47<2:39:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12332/15423 [10:37:50<2:39:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12332/15423 [10:37:50<2:39:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12333/15423 [10:37:54<2:39:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12333/15423 [10:37:54<2:39:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12334/15423 [10:37:58<2:39:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12334/15423 [10:37:58<2:39:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12335/15423 [10:38:02<2:39:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12335/15423 [10:38:02<2:39:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12336/15423 [10:38:03<2:39:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12336/15423 [10:38:03<2:39:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12337/15423 [10:38:05<2:39:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12337/15423 [10:38:05<2:39:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12338/15423 [10:38:07<2:39:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12338/15423 [10:38:07<2:39:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12339/15423 [10:38:08<2:39:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12339/15423 [10:38:08<2:39:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12340/15423 [10:38:12<2:39:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12340/15423 [10:38:12<2:39:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12341/15423 [10:38:14<2:39:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12341/15423 [10:38:14<2:39:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12342/15423 [10:38:16<2:39:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12342/15423 [10:38:16<2:39:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12343/15423 [10:38:19<2:39:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12343/15423 [10:38:19<2:39:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12344/15423 [10:38:21<2:39:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12344/15423 [10:38:21<2:39:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12345/15423 [10:38:21<2:39:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12345/15423 [10:38:21<2:39:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12346/15423 [10:38:24<2:39:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12346/15423 [10:38:24<2:39:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12347/15423 [10:38:26<2:39:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12347/15423 [10:38:26<2:39:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12348/15423 [10:38:28<2:38:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12348/15423 [10:38:28<2:38:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12349/15423 [10:38:32<2:38:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12349/15423 [10:38:32<2:38:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12350/15423 [10:38:33<2:38:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12350/15423 [10:38:33<2:38:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12351/15423 [10:38:36<2:38:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12351/15423 [10:38:36<2:38:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12352/15423 [10:39:01<2:38:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12352/15423 [10:39:01<2:38:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12353/15423 [10:39:03<2:38:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12353/15423 [10:39:03<2:38:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12354/15423 [10:39:04<2:38:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12354/15423 [10:39:04<2:38:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12355/15423 [10:39:06<2:38:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12355/15423 [10:39:06<2:38:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12356/15423 [10:39:08<2:38:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12356/15423 [10:39:08<2:38:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12357/15423 [10:39:08<2:38:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12357/15423 [10:39:08<2:38:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12358/15423 [10:39:13<2:38:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12358/15423 [10:39:13<2:38:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12359/15423 [10:39:17<2:38:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12359/15423 [10:39:17<2:38:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12360/15423 [10:39:21<2:38:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12360/15423 [10:39:21<2:38:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12361/15423 [10:39:24<2:38:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12361/15423 [10:39:24<2:38:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12362/15423 [10:39:26<2:38:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12362/15423 [10:39:26<2:38:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12363/15423 [10:39:30<2:38:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12363/15423 [10:39:30<2:38:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12364/15423 [10:39:30<2:38:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12364/15423 [10:39:30<2:38:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12365/15423 [10:39:33<2:38:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12365/15423 [10:39:33<2:38:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12366/15423 [10:39:34<2:38:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12366/15423 [10:39:34<2:38:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12367/15423 [10:39:35<2:38:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12367/15423 [10:39:35<2:38:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12368/15423 [10:39:37<2:37:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12368/15423 [10:39:37<2:37:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12369/15423 [10:39:41<2:37:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12369/15423 [10:39:41<2:37:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12370/15423 [10:39:43<2:37:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12370/15423 [10:39:43<2:37:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12371/15423 [10:39:45<2:37:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12371/15423 [10:39:45<2:37:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12372/15423 [10:39:49<2:37:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12372/15423 [10:39:49<2:37:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12373/15423 [10:39:51<2:37:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12373/15423 [10:39:51<2:37:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12374/15423 [10:39:53<2:37:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12374/15423 [10:39:53<2:37:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12375/15423 [10:39:54<2:37:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12375/15423 [10:39:54<2:37:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12376/15423 [10:39:58<2:37:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12376/15423 [10:39:58<2:37:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12377/15423 [10:40:01<2:37:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12377/15423 [10:40:01<2:37:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12378/15423 [10:40:03<2:37:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12378/15423 [10:40:03<2:37:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12379/15423 [10:40:08<2:37:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12379/15423 [10:40:08<2:37:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12380/15423 [10:40:09<2:37:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12380/15423 [10:40:09<2:37:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12381/15423 [10:40:12<2:37:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12381/15423 [10:40:12<2:37:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12382/15423 [10:40:15<2:37:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12382/15423 [10:40:15<2:37:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12383/15423 [10:40:16<2:37:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12383/15423 [10:40:16<2:37:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12384/15423 [10:40:36<2:37:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12384/15423 [10:40:36<2:37:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12385/15423 [10:40:39<2:37:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12385/15423 [10:40:39<2:37:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12386/15423 [10:40:43<2:37:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12386/15423 [10:40:43<2:37:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12387/15423 [10:40:47<2:37:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12387/15423 [10:40:47<2:37:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12388/15423 [10:40:48<2:36:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12388/15423 [10:40:48<2:36:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12389/15423 [10:40:50<2:36:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12389/15423 [10:40:50<2:36:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12390/15423 [10:40:52<2:36:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12390/15423 [10:40:52<2:36:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12391/15423 [10:40:55<2:36:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12391/15423 [10:40:55<2:36:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12392/15423 [10:40:59<2:36:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12392/15423 [10:40:59<2:36:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12393/15423 [10:41:02<2:36:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12393/15423 [10:41:02<2:36:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12394/15423 [10:41:05<2:36:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12394/15423 [10:41:05<2:36:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12395/15423 [10:41:07<2:36:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12395/15423 [10:41:07<2:36:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12396/15423 [10:41:12<2:36:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12396/15423 [10:41:12<2:36:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12397/15423 [10:41:14<2:36:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12397/15423 [10:41:14<2:36:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12398/15423 [10:41:15<2:36:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12398/15423 [10:41:15<2:36:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12399/15423 [10:41:19<2:36:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12399/15423 [10:41:19<2:36:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12400/15423 [10:41:20<2:36:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12400/15423 [10:41:20<2:36:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12401/15423 [10:41:23<2:36:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12401/15423 [10:41:23<2:36:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12402/15423 [10:41:24<2:36:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12402/15423 [10:41:24<2:36:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12403/15423 [10:41:27<2:36:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12403/15423 [10:41:27<2:36:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12404/15423 [10:41:29<2:36:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12404/15423 [10:41:29<2:36:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12405/15423 [10:41:30<2:36:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12405/15423 [10:41:30<2:36:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12406/15423 [10:41:33<2:36:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12406/15423 [10:41:33<2:36:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12407/15423 [10:41:36<2:35:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12407/15423 [10:41:36<2:35:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12408/15423 [10:41:40<2:35:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12408/15423 [10:41:40<2:35:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12409/15423 [10:41:41<2:35:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12409/15423 [10:41:41<2:35:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12410/15423 [10:41:43<2:35:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12410/15423 [10:41:43<2:35:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12411/15423 [10:41:45<2:35:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12411/15423 [10:41:45<2:35:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12412/15423 [10:41:46<2:35:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12412/15423 [10:41:46<2:35:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12413/15423 [10:41:50<2:35:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12413/15423 [10:41:50<2:35:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12414/15423 [10:41:53<2:35:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12414/15423 [10:41:53<2:35:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  80%|▊| 12415/15423 [10:41:54<2:35:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  80%|▊| 12415/15423 [10:41:54<2:35:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12416/15423 [10:42:12<2:35:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12416/15423 [10:42:12<2:35:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12417/15423 [10:42:13<2:35:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12417/15423 [10:42:13<2:35:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12418/15423 [10:42:16<2:35:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12418/15423 [10:42:16<2:35:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12419/15423 [10:42:18<2:35:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12419/15423 [10:42:18<2:35:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12420/15423 [10:42:21<2:35:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12420/15423 [10:42:21<2:35:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12421/15423 [10:42:22<2:35:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12421/15423 [10:42:22<2:35:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12422/15423 [10:42:24<2:35:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12422/15423 [10:42:24<2:35:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12423/15423 [10:42:27<2:35:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12423/15423 [10:42:27<2:35:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12424/15423 [10:42:29<2:35:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12424/15423 [10:42:29<2:35:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12425/15423 [10:42:32<2:35:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12425/15423 [10:42:32<2:35:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12426/15423 [10:42:33<2:34:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12426/15423 [10:42:33<2:34:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12427/15423 [10:42:35<2:34:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12427/15423 [10:42:35<2:34:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12428/15423 [10:42:39<2:34:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12428/15423 [10:42:39<2:34:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12429/15423 [10:42:39<2:34:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12429/15423 [10:42:39<2:34:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12430/15423 [10:42:41<2:34:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12430/15423 [10:42:41<2:34:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12431/15423 [10:42:45<2:34:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12431/15423 [10:42:45<2:34:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12432/15423 [10:42:46<2:34:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12432/15423 [10:42:46<2:34:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12433/15423 [10:42:49<2:34:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12433/15423 [10:42:49<2:34:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12434/15423 [10:42:52<2:34:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12434/15423 [10:42:52<2:34:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12435/15423 [10:42:54<2:34:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12435/15423 [10:42:54<2:34:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12436/15423 [10:42:55<2:34:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12436/15423 [10:42:55<2:34:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12437/15423 [10:42:57<2:34:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12437/15423 [10:42:57<2:34:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12438/15423 [10:43:01<2:34:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12438/15423 [10:43:01<2:34:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12439/15423 [10:43:04<2:34:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12439/15423 [10:43:04<2:34:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12440/15423 [10:43:07<2:34:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12440/15423 [10:43:07<2:34:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12441/15423 [10:43:11<2:34:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12441/15423 [10:43:11<2:34:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12442/15423 [10:43:13<2:34:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12442/15423 [10:43:13<2:34:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12443/15423 [10:43:14<2:34:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12443/15423 [10:43:14<2:34:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12444/15423 [10:43:15<2:33:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12444/15423 [10:43:15<2:33:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12445/15423 [10:43:18<2:33:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12445/15423 [10:43:18<2:33:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12446/15423 [10:43:22<2:33:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12446/15423 [10:43:22<2:33:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12447/15423 [10:43:23<2:33:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12447/15423 [10:43:23<2:33:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12448/15423 [10:43:48<2:33:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12448/15423 [10:43:48<2:33:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12449/15423 [10:43:50<2:33:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12449/15423 [10:43:50<2:33:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12450/15423 [10:43:54<2:33:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12450/15423 [10:43:54<2:33:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12451/15423 [10:43:58<2:33:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12451/15423 [10:43:58<2:33:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12452/15423 [10:44:00<2:33:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12452/15423 [10:44:00<2:33:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12453/15423 [10:44:02<2:33:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12453/15423 [10:44:02<2:33:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12454/15423 [10:44:04<2:33:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12454/15423 [10:44:04<2:33:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12455/15423 [10:44:07<2:33:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12455/15423 [10:44:07<2:33:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12456/15423 [10:44:10<2:33:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12456/15423 [10:44:10<2:33:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12457/15423 [10:44:14<2:33:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12457/15423 [10:44:14<2:33:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12458/15423 [10:44:18<2:33:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12458/15423 [10:44:18<2:33:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12459/15423 [10:44:20<2:33:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12459/15423 [10:44:20<2:33:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12460/15423 [10:44:22<2:33:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12460/15423 [10:44:22<2:33:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12461/15423 [10:44:22<2:33:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12461/15423 [10:44:22<2:33:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12462/15423 [10:44:26<2:33:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12462/15423 [10:44:26<2:33:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12463/15423 [10:44:29<2:33:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12463/15423 [10:44:29<2:33:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12464/15423 [10:44:30<2:33:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12464/15423 [10:44:30<2:33:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12465/15423 [10:44:33<2:32:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12465/15423 [10:44:33<2:32:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12466/15423 [10:44:37<2:32:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12466/15423 [10:44:37<2:32:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12467/15423 [10:44:41<2:32:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12467/15423 [10:44:41<2:32:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12468/15423 [10:44:43<2:32:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12468/15423 [10:44:43<2:32:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12469/15423 [10:44:45<2:32:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12469/15423 [10:44:45<2:32:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12470/15423 [10:44:46<2:32:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12470/15423 [10:44:46<2:32:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12471/15423 [10:44:49<2:32:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12471/15423 [10:44:49<2:32:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12472/15423 [10:44:51<2:32:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12472/15423 [10:44:51<2:32:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12473/15423 [10:44:53<2:32:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12473/15423 [10:44:53<2:32:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12474/15423 [10:44:57<2:32:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12474/15423 [10:44:57<2:32:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12475/15423 [10:44:57<2:32:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12475/15423 [10:44:57<2:32:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12476/15423 [10:45:02<2:32:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12476/15423 [10:45:02<2:32:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12477/15423 [10:45:05<2:32:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12477/15423 [10:45:05<2:32:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12478/15423 [10:45:06<2:32:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12478/15423 [10:45:06<2:32:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12479/15423 [10:45:09<2:32:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12479/15423 [10:45:09<2:32:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12480/15423 [10:45:21<2:32:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12480/15423 [10:45:21<2:32:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12481/15423 [10:45:24<2:32:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12481/15423 [10:45:24<2:32:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12482/15423 [10:45:26<2:32:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12482/15423 [10:45:26<2:32:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12483/15423 [10:45:27<2:32:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12483/15423 [10:45:27<2:32:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12484/15423 [10:45:31<2:31:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12484/15423 [10:45:31<2:31:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12485/15423 [10:45:33<2:31:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12485/15423 [10:45:33<2:31:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12486/15423 [10:45:35<2:31:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12486/15423 [10:45:35<2:31:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12487/15423 [10:45:39<2:31:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12487/15423 [10:45:39<2:31:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12488/15423 [10:45:42<2:31:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12488/15423 [10:45:42<2:31:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12489/15423 [10:45:44<2:31:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12489/15423 [10:45:44<2:31:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12490/15423 [10:45:45<2:31:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12490/15423 [10:45:45<2:31:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12491/15423 [10:45:47<2:31:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12491/15423 [10:45:47<2:31:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12492/15423 [10:45:51<2:31:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12492/15423 [10:45:51<2:31:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12493/15423 [10:45:54<2:31:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12493/15423 [10:45:54<2:31:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12494/15423 [10:45:55<2:31:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12494/15423 [10:45:55<2:31:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12495/15423 [10:45:57<2:31:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12495/15423 [10:45:57<2:31:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12496/15423 [10:46:01<2:31:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12496/15423 [10:46:01<2:31:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12497/15423 [10:46:01<2:31:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12497/15423 [10:46:01<2:31:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12498/15423 [10:46:06<2:31:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12498/15423 [10:46:06<2:31:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12499/15423 [10:46:09<2:31:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12499/15423 [10:46:09<2:31:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12500/15423 [10:46:11<2:31:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12500/15423 [10:46:11<2:31:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12501/15423 [10:46:16<2:31:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12501/15423 [10:46:16<2:31:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12502/15423 [10:46:18<2:31:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12502/15423 [10:46:18<2:31:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12503/15423 [10:46:21<2:30:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12503/15423 [10:46:21<2:30:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12504/15423 [10:46:24<2:30:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12504/15423 [10:46:24<2:30:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12505/15423 [10:46:28<2:30:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12505/15423 [10:46:28<2:30:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12506/15423 [10:46:32<2:30:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12506/15423 [10:46:32<2:30:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12507/15423 [10:46:33<2:30:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12507/15423 [10:46:33<2:30:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12508/15423 [10:46:36<2:30:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12508/15423 [10:46:36<2:30:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12509/15423 [10:46:37<2:30:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12509/15423 [10:46:37<2:30:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12510/15423 [10:46:39<2:30:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12510/15423 [10:46:39<2:30:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12511/15423 [10:46:41<2:30:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12511/15423 [10:46:41<2:30:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12512/15423 [10:46:57<2:30:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12512/15423 [10:46:57<2:30:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12513/15423 [10:47:00<2:30:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12513/15423 [10:47:00<2:30:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12514/15423 [10:47:02<2:30:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12514/15423 [10:47:02<2:30:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12515/15423 [10:47:05<2:30:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12515/15423 [10:47:05<2:30:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12516/15423 [10:47:08<2:30:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12516/15423 [10:47:08<2:30:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12517/15423 [10:47:12<2:30:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12517/15423 [10:47:12<2:30:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12518/15423 [10:47:14<2:30:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12518/15423 [10:47:14<2:30:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12519/15423 [10:47:18<2:30:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12519/15423 [10:47:18<2:30:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12520/15423 [10:47:20<2:30:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12520/15423 [10:47:20<2:30:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12521/15423 [10:47:23<2:30:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12521/15423 [10:47:23<2:30:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12522/15423 [10:47:25<2:29:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12522/15423 [10:47:25<2:29:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12523/15423 [10:47:29<2:29:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12523/15423 [10:47:29<2:29:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12524/15423 [10:47:30<2:29:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12524/15423 [10:47:30<2:29:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12525/15423 [10:47:33<2:29:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12525/15423 [10:47:33<2:29:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12526/15423 [10:47:35<2:29:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12526/15423 [10:47:35<2:29:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12527/15423 [10:47:38<2:29:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12527/15423 [10:47:38<2:29:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12528/15423 [10:47:42<2:29:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12528/15423 [10:47:42<2:29:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12529/15423 [10:47:45<2:29:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12529/15423 [10:47:45<2:29:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12530/15423 [10:47:49<2:29:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12530/15423 [10:47:49<2:29:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12531/15423 [10:47:53<2:29:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12531/15423 [10:47:53<2:29:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12532/15423 [10:47:56<2:29:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12532/15423 [10:47:56<2:29:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12533/15423 [10:48:00<2:29:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12533/15423 [10:48:00<2:29:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12534/15423 [10:48:02<2:29:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12534/15423 [10:48:02<2:29:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12535/15423 [10:48:07<2:29:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12535/15423 [10:48:07<2:29:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12536/15423 [10:48:08<2:29:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12536/15423 [10:48:08<2:29:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12537/15423 [10:48:10<2:29:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12537/15423 [10:48:10<2:29:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12538/15423 [10:48:11<2:29:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12538/15423 [10:48:11<2:29:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12539/15423 [10:48:16<2:29:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12539/15423 [10:48:16<2:29:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12540/15423 [10:48:18<2:29:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12540/15423 [10:48:18<2:29:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12541/15423 [10:48:22<2:29:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12541/15423 [10:48:22<2:29:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12542/15423 [10:48:24<2:28:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12542/15423 [10:48:24<2:28:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12543/15423 [10:48:28<2:28:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12543/15423 [10:48:28<2:28:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12544/15423 [10:48:37<2:28:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12544/15423 [10:48:37<2:28:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12545/15423 [10:48:38<2:28:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12545/15423 [10:48:38<2:28:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12546/15423 [10:48:42<2:28:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12546/15423 [10:48:42<2:28:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12547/15423 [10:48:46<2:28:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12547/15423 [10:48:46<2:28:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12548/15423 [10:48:50<2:28:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12548/15423 [10:48:50<2:28:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12549/15423 [10:48:52<2:28:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12549/15423 [10:48:52<2:28:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12550/15423 [10:48:54<2:28:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12550/15423 [10:48:54<2:28:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12551/15423 [10:48:57<2:28:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12551/15423 [10:48:57<2:28:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12552/15423 [10:49:00<2:28:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12552/15423 [10:49:00<2:28:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12553/15423 [10:49:02<2:28:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12553/15423 [10:49:02<2:28:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12554/15423 [10:49:06<2:28:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12554/15423 [10:49:06<2:28:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12555/15423 [10:49:09<2:28:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12555/15423 [10:49:09<2:28:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12556/15423 [10:49:11<2:28:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12556/15423 [10:49:11<2:28:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12557/15423 [10:49:13<2:28:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12557/15423 [10:49:13<2:28:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12558/15423 [10:49:14<2:28:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12558/15423 [10:49:14<2:28:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12559/15423 [10:49:16<2:28:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12559/15423 [10:49:16<2:28:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12560/15423 [10:49:20<2:28:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12560/15423 [10:49:20<2:28:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12561/15423 [10:49:22<2:27:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12561/15423 [10:49:22<2:27:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12562/15423 [10:49:24<2:27:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12562/15423 [10:49:24<2:27:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12563/15423 [10:49:26<2:27:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12563/15423 [10:49:26<2:27:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12564/15423 [10:49:29<2:27:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12564/15423 [10:49:29<2:27:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12565/15423 [10:49:33<2:27:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12565/15423 [10:49:33<2:27:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12566/15423 [10:49:36<2:27:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12566/15423 [10:49:36<2:27:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12567/15423 [10:49:37<2:27:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12567/15423 [10:49:37<2:27:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12568/15423 [10:49:38<2:27:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12568/15423 [10:49:38<2:27:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  81%|▊| 12569/15423 [10:49:42<2:27:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  81%|▊| 12569/15423 [10:49:42<2:27:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12570/15423 [10:49:46<2:27:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12570/15423 [10:49:46<2:27:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12571/15423 [10:49:50<2:27:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12571/15423 [10:49:50<2:27:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12572/15423 [10:49:53<2:27:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12572/15423 [10:49:53<2:27:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12573/15423 [10:49:55<2:27:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12573/15423 [10:49:55<2:27:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12574/15423 [10:49:58<2:27:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12574/15423 [10:49:58<2:27:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12575/15423 [10:50:01<2:27:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12575/15423 [10:50:01<2:27:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12576/15423 [10:50:20<2:27:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12576/15423 [10:50:20<2:27:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12577/15423 [10:50:22<2:27:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12577/15423 [10:50:22<2:27:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12578/15423 [10:50:23<2:27:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12578/15423 [10:50:23<2:27:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12579/15423 [10:50:27<2:27:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12579/15423 [10:50:27<2:27:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12580/15423 [10:50:29<2:27:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12580/15423 [10:50:29<2:27:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12581/15423 [10:50:33<2:26:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12581/15423 [10:50:33<2:26:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12582/15423 [10:50:36<2:26:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12582/15423 [10:50:36<2:26:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12583/15423 [10:50:38<2:26:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12583/15423 [10:50:38<2:26:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12584/15423 [10:50:40<2:26:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12584/15423 [10:50:40<2:26:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12585/15423 [10:50:41<2:26:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12585/15423 [10:50:41<2:26:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12586/15423 [10:50:43<2:26:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12586/15423 [10:50:43<2:26:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12587/15423 [10:50:46<2:26:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12587/15423 [10:50:46<2:26:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12588/15423 [10:50:49<2:26:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12588/15423 [10:50:49<2:26:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12589/15423 [10:50:53<2:26:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12589/15423 [10:50:53<2:26:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12590/15423 [10:50:57<2:26:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12590/15423 [10:50:57<2:26:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12591/15423 [10:50:58<2:26:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12591/15423 [10:50:58<2:26:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12592/15423 [10:51:00<2:26:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12592/15423 [10:51:00<2:26:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12593/15423 [10:51:01<2:26:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12593/15423 [10:51:01<2:26:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12594/15423 [10:51:05<2:26:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12594/15423 [10:51:05<2:26:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12595/15423 [10:51:07<2:26:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12595/15423 [10:51:07<2:26:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12596/15423 [10:51:11<2:26:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12596/15423 [10:51:11<2:26:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12597/15423 [10:51:13<2:26:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12597/15423 [10:51:13<2:26:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12598/15423 [10:51:16<2:26:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12598/15423 [10:51:16<2:26:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12599/15423 [10:51:20<2:25:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12599/15423 [10:51:20<2:25:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12600/15423 [10:51:24<2:25:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12600/15423 [10:51:24<2:25:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12601/15423 [10:51:26<2:25:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12601/15423 [10:51:26<2:25:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12602/15423 [10:51:28<2:25:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12602/15423 [10:51:28<2:25:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12603/15423 [10:51:30<2:25:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12603/15423 [10:51:30<2:25:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12604/15423 [10:51:33<2:25:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12604/15423 [10:51:33<2:25:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12605/15423 [10:51:35<2:25:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12605/15423 [10:51:35<2:25:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12606/15423 [10:51:37<2:25:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12606/15423 [10:51:37<2:25:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12607/15423 [10:51:40<2:25:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12607/15423 [10:51:40<2:25:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12608/15423 [10:51:58<2:25:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12608/15423 [10:51:58<2:25:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12609/15423 [10:52:03<2:25:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12609/15423 [10:52:03<2:25:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12610/15423 [10:52:06<2:25:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12610/15423 [10:52:06<2:25:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12611/15423 [10:52:07<2:25:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12611/15423 [10:52:07<2:25:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12612/15423 [10:52:12<2:25:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12612/15423 [10:52:12<2:25:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12613/15423 [10:52:16<2:25:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12613/15423 [10:52:16<2:25:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12614/15423 [10:52:17<2:25:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12614/15423 [10:52:17<2:25:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12615/15423 [10:52:18<2:25:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12615/15423 [10:52:18<2:25:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12616/15423 [10:52:21<2:25:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12616/15423 [10:52:21<2:25:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12617/15423 [10:52:24<2:25:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12617/15423 [10:52:24<2:25:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12618/15423 [10:52:26<2:25:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12618/15423 [10:52:26<2:25:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12619/15423 [10:52:29<2:24:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12619/15423 [10:52:29<2:24:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12620/15423 [10:52:31<2:24:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12620/15423 [10:52:31<2:24:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12621/15423 [10:52:32<2:24:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12621/15423 [10:52:32<2:24:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12622/15423 [10:52:34<2:24:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12622/15423 [10:52:34<2:24:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12623/15423 [10:52:36<2:24:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12623/15423 [10:52:36<2:24:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12624/15423 [10:52:40<2:24:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12624/15423 [10:52:40<2:24:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12625/15423 [10:52:44<2:24:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12625/15423 [10:52:44<2:24:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12626/15423 [10:52:48<2:24:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12626/15423 [10:52:48<2:24:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12627/15423 [10:52:53<2:24:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12627/15423 [10:52:53<2:24:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12628/15423 [10:52:54<2:24:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12628/15423 [10:52:54<2:24:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12629/15423 [10:52:57<2:24:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12629/15423 [10:52:57<2:24:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12630/15423 [10:53:01<2:24:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12630/15423 [10:53:01<2:24:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12631/15423 [10:53:05<2:24:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12631/15423 [10:53:05<2:24:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12632/15423 [10:53:07<2:24:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12632/15423 [10:53:07<2:24:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12633/15423 [10:53:10<2:24:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12633/15423 [10:53:10<2:24:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12634/15423 [10:53:13<2:24:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12634/15423 [10:53:13<2:24:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12635/15423 [10:53:14<2:24:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12635/15423 [10:53:14<2:24:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12636/15423 [10:53:16<2:24:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12636/15423 [10:53:16<2:24:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12637/15423 [10:53:18<2:24:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12637/15423 [10:53:18<2:24:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12638/15423 [10:53:20<2:23:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12638/15423 [10:53:20<2:23:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12639/15423 [10:53:22<2:23:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12639/15423 [10:53:22<2:23:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12640/15423 [10:53:37<2:23:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12640/15423 [10:53:37<2:23:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12641/15423 [10:53:38<2:23:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12641/15423 [10:53:38<2:23:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12642/15423 [10:53:40<2:23:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12642/15423 [10:53:40<2:23:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12643/15423 [10:53:43<2:23:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12643/15423 [10:53:43<2:23:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12644/15423 [10:53:44<2:23:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12644/15423 [10:53:44<2:23:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12645/15423 [10:53:48<2:23:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12645/15423 [10:53:48<2:23:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12646/15423 [10:53:52<2:23:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12646/15423 [10:53:52<2:23:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12647/15423 [10:53:53<2:23:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12647/15423 [10:53:53<2:23:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12648/15423 [10:53:56<2:23:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12648/15423 [10:53:56<2:23:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12649/15423 [10:53:57<2:23:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12649/15423 [10:53:57<2:23:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12650/15423 [10:54:02<2:23:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12650/15423 [10:54:02<2:23:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12651/15423 [10:54:04<2:23:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12651/15423 [10:54:04<2:23:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12652/15423 [10:54:06<2:23:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12652/15423 [10:54:06<2:23:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12653/15423 [10:54:08<2:23:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12653/15423 [10:54:08<2:23:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12654/15423 [10:54:12<2:23:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12654/15423 [10:54:12<2:23:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12655/15423 [10:54:16<2:23:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12655/15423 [10:54:16<2:23:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12656/15423 [10:54:21<2:23:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12656/15423 [10:54:21<2:23:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12657/15423 [10:54:25<2:23:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12657/15423 [10:54:25<2:23:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12658/15423 [10:54:27<2:22:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12658/15423 [10:54:27<2:22:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12659/15423 [10:54:32<2:22:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12659/15423 [10:54:32<2:22:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12660/15423 [10:54:36<2:22:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12660/15423 [10:54:36<2:22:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12661/15423 [10:54:38<2:22:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12661/15423 [10:54:38<2:22:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12662/15423 [10:54:40<2:22:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12662/15423 [10:54:40<2:22:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12663/15423 [10:54:43<2:22:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12663/15423 [10:54:43<2:22:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12664/15423 [10:54:45<2:22:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12664/15423 [10:54:45<2:22:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12665/15423 [10:54:48<2:22:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12665/15423 [10:54:48<2:22:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12666/15423 [10:54:52<2:22:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12666/15423 [10:54:52<2:22:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12667/15423 [10:54:53<2:22:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12667/15423 [10:54:53<2:22:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12668/15423 [10:54:56<2:22:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12668/15423 [10:54:56<2:22:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12669/15423 [10:55:01<2:22:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12669/15423 [10:55:01<2:22:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12670/15423 [10:55:02<2:22:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12670/15423 [10:55:02<2:22:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12671/15423 [10:55:05<2:22:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12671/15423 [10:55:05<2:22:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12672/15423 [10:55:13<2:22:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12672/15423 [10:55:13<2:22:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12673/15423 [10:55:16<2:22:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12673/15423 [10:55:16<2:22:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12674/15423 [10:55:20<2:22:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12674/15423 [10:55:20<2:22:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12675/15423 [10:55:21<2:22:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12675/15423 [10:55:21<2:22:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12676/15423 [10:55:25<2:22:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12676/15423 [10:55:25<2:22:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12677/15423 [10:55:28<2:21:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12677/15423 [10:55:28<2:21:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12678/15423 [10:55:29<2:21:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12678/15423 [10:55:29<2:21:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12679/15423 [10:55:31<2:21:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12679/15423 [10:55:31<2:21:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12680/15423 [10:55:34<2:21:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12680/15423 [10:55:34<2:21:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12681/15423 [10:55:36<2:21:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12681/15423 [10:55:36<2:21:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12682/15423 [10:55:37<2:21:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12682/15423 [10:55:37<2:21:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12683/15423 [10:55:40<2:21:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12683/15423 [10:55:40<2:21:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12684/15423 [10:55:43<2:21:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12684/15423 [10:55:43<2:21:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12685/15423 [10:55:46<2:21:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12685/15423 [10:55:46<2:21:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12686/15423 [10:55:50<2:21:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12686/15423 [10:55:50<2:21:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12687/15423 [10:55:52<2:21:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12687/15423 [10:55:52<2:21:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12688/15423 [10:55:53<2:21:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12688/15423 [10:55:53<2:21:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12689/15423 [10:55:55<2:21:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12689/15423 [10:55:55<2:21:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12690/15423 [10:55:56<2:21:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12690/15423 [10:55:56<2:21:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12691/15423 [10:55:58<2:21:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12691/15423 [10:55:58<2:21:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12692/15423 [10:56:01<2:21:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12692/15423 [10:56:01<2:21:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12693/15423 [10:56:06<2:21:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12693/15423 [10:56:06<2:21:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12694/15423 [10:56:08<2:21:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12694/15423 [10:56:08<2:21:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12695/15423 [10:56:10<2:21:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12695/15423 [10:56:10<2:21:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12696/15423 [10:56:13<2:20:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12696/15423 [10:56:13<2:20:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12697/15423 [10:56:15<2:20:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12697/15423 [10:56:15<2:20:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12698/15423 [10:56:16<2:20:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12698/15423 [10:56:16<2:20:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12699/15423 [10:56:19<2:20:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12699/15423 [10:56:19<2:20:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12700/15423 [10:56:22<2:20:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12700/15423 [10:56:22<2:20:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12701/15423 [10:56:25<2:20:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12701/15423 [10:56:25<2:20:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12702/15423 [10:56:28<2:20:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12702/15423 [10:56:28<2:20:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12703/15423 [10:56:33<2:20:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12703/15423 [10:56:33<2:20:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12704/15423 [10:56:49<2:20:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12704/15423 [10:56:49<2:20:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12705/15423 [10:56:50<2:20:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12705/15423 [10:56:50<2:20:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12706/15423 [10:56:53<2:20:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12706/15423 [10:56:53<2:20:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12707/15423 [10:56:54<2:20:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12707/15423 [10:56:54<2:20:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12708/15423 [10:56:56<2:20:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12708/15423 [10:56:56<2:20:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12709/15423 [10:56:59<2:20:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12709/15423 [10:56:59<2:20:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12710/15423 [10:57:00<2:20:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12710/15423 [10:57:00<2:20:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12711/15423 [10:57:02<2:20:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12711/15423 [10:57:02<2:20:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12712/15423 [10:57:06<2:20:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12712/15423 [10:57:06<2:20:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12713/15423 [10:57:08<2:20:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12713/15423 [10:57:08<2:20:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12714/15423 [10:57:12<2:20:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12714/15423 [10:57:12<2:20:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12715/15423 [10:57:16<2:19:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12715/15423 [10:57:16<2:19:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12716/15423 [10:57:19<2:19:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12716/15423 [10:57:19<2:19:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12717/15423 [10:57:22<2:19:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12717/15423 [10:57:22<2:19:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12718/15423 [10:57:26<2:19:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12718/15423 [10:57:26<2:19:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12719/15423 [10:57:30<2:19:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12719/15423 [10:57:30<2:19:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12720/15423 [10:57:31<2:19:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12720/15423 [10:57:31<2:19:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12721/15423 [10:57:34<2:19:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12721/15423 [10:57:34<2:19:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12722/15423 [10:57:36<2:19:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12722/15423 [10:57:36<2:19:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  82%|▊| 12723/15423 [10:57:36<2:19:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  82%|▊| 12723/15423 [10:57:36<2:19:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12724/15423 [10:57:39<2:19:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12724/15423 [10:57:39<2:19:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12725/15423 [10:57:40<2:19:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12725/15423 [10:57:40<2:19:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12726/15423 [10:57:44<2:19:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12726/15423 [10:57:44<2:19:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12727/15423 [10:57:46<2:19:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12727/15423 [10:57:46<2:19:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12728/15423 [10:57:49<2:19:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12728/15423 [10:57:49<2:19:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12729/15423 [10:57:52<2:19:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12729/15423 [10:57:52<2:19:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12730/15423 [10:57:54<2:19:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12730/15423 [10:57:54<2:19:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12731/15423 [10:57:58<2:19:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12731/15423 [10:57:58<2:19:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12732/15423 [10:57:59<2:19:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12732/15423 [10:57:59<2:19:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12733/15423 [10:58:02<2:19:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12733/15423 [10:58:02<2:19:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12734/15423 [10:58:06<2:18:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12734/15423 [10:58:06<2:18:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12735/15423 [10:58:08<2:18:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12735/15423 [10:58:08<2:18:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12736/15423 [10:58:31<2:18:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12736/15423 [10:58:31<2:18:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12737/15423 [10:58:33<2:18:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12737/15423 [10:58:33<2:18:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12738/15423 [10:58:35<2:18:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12738/15423 [10:58:35<2:18:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12739/15423 [10:58:37<2:18:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12739/15423 [10:58:37<2:18:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12740/15423 [10:58:38<2:18:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12740/15423 [10:58:38<2:18:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12741/15423 [10:58:42<2:18:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12741/15423 [10:58:42<2:18:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12742/15423 [10:58:44<2:18:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12742/15423 [10:58:44<2:18:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12743/15423 [10:58:48<2:18:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12743/15423 [10:58:48<2:18:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12744/15423 [10:58:50<2:18:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12744/15423 [10:58:50<2:18:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12745/15423 [10:58:52<2:18:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12745/15423 [10:58:52<2:18:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12746/15423 [10:58:55<2:18:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12746/15423 [10:58:55<2:18:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12747/15423 [10:58:57<2:18:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12747/15423 [10:58:57<2:18:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12748/15423 [10:59:01<2:18:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12748/15423 [10:59:01<2:18:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12749/15423 [10:59:02<2:18:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12749/15423 [10:59:02<2:18:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12750/15423 [10:59:06<2:18:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12750/15423 [10:59:06<2:18:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12751/15423 [10:59:07<2:18:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12751/15423 [10:59:07<2:18:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12752/15423 [10:59:09<2:18:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12752/15423 [10:59:09<2:18:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12753/15423 [10:59:10<2:18:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12753/15423 [10:59:10<2:18:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12754/15423 [10:59:12<2:17:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12754/15423 [10:59:12<2:17:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12755/15423 [10:59:16<2:17:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12755/15423 [10:59:16<2:17:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12756/15423 [10:59:20<2:17:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12756/15423 [10:59:20<2:17:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12757/15423 [10:59:21<2:17:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12757/15423 [10:59:21<2:17:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12758/15423 [10:59:22<2:17:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12758/15423 [10:59:22<2:17:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12759/15423 [10:59:24<2:17:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12759/15423 [10:59:24<2:17:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12760/15423 [10:59:28<2:17:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12760/15423 [10:59:28<2:17:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12761/15423 [10:59:32<2:17:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12761/15423 [10:59:32<2:17:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12762/15423 [10:59:32<2:17:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12762/15423 [10:59:32<2:17:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12763/15423 [10:59:36<2:17:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12763/15423 [10:59:36<2:17:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12764/15423 [10:59:38<2:17:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12764/15423 [10:59:38<2:17:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12765/15423 [10:59:40<2:17:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12765/15423 [10:59:40<2:17:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12766/15423 [10:59:42<2:17:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12766/15423 [10:59:42<2:17:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12767/15423 [10:59:45<2:17:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12767/15423 [10:59:45<2:17:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12768/15423 [11:00:07<2:17:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12768/15423 [11:00:07<2:17:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12769/15423 [11:00:08<2:17:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12769/15423 [11:00:08<2:17:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12770/15423 [11:00:13<2:17:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12770/15423 [11:00:13<2:17:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12771/15423 [11:00:15<2:17:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12771/15423 [11:00:15<2:17:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12772/15423 [11:00:18<2:17:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12772/15423 [11:00:18<2:17:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12773/15423 [11:00:20<2:17:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12773/15423 [11:00:20<2:17:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12774/15423 [11:00:24<2:16:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12774/15423 [11:00:24<2:16:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12775/15423 [11:00:27<2:16:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12775/15423 [11:00:27<2:16:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12776/15423 [11:00:31<2:16:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12776/15423 [11:00:31<2:16:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|���| 12777/15423 [11:00:32<2:16:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12777/15423 [11:00:32<2:16:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12778/15423 [11:00:34<2:16:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12778/15423 [11:00:34<2:16:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12779/15423 [11:00:36<2:16:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12779/15423 [11:00:36<2:16:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12780/15423 [11:00:39<2:16:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12780/15423 [11:00:39<2:16:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12781/15423 [11:00:41<2:16:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12781/15423 [11:00:41<2:16:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12782/15423 [11:00:42<2:16:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12782/15423 [11:00:42<2:16:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12783/15423 [11:00:46<2:16:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12783/15423 [11:00:46<2:16:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12784/15423 [11:00:47<2:16:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12784/15423 [11:00:47<2:16:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12785/15423 [11:00:52<2:16:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12785/15423 [11:00:52<2:16:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12786/15423 [11:00:55<2:16:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12786/15423 [11:00:55<2:16:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12787/15423 [11:00:58<2:16:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12787/15423 [11:00:58<2:16:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12788/15423 [11:01:02<2:16:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12788/15423 [11:01:02<2:16:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12789/15423 [11:01:02<2:16:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12789/15423 [11:01:02<2:16:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12790/15423 [11:01:06<2:16:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12790/15423 [11:01:06<2:16:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12791/15423 [11:01:08<2:16:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12791/15423 [11:01:08<2:16:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12792/15423 [11:01:09<2:15:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12792/15423 [11:01:09<2:15:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12793/15423 [11:01:12<2:15:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12793/15423 [11:01:12<2:15:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12794/15423 [11:01:16<2:15:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12794/15423 [11:01:16<2:15:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12795/15423 [11:01:19<2:15:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12795/15423 [11:01:19<2:15:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12796/15423 [11:01:24<2:15:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12796/15423 [11:01:24<2:15:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12797/15423 [11:01:26<2:15:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12797/15423 [11:01:26<2:15:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12798/15423 [11:01:28<2:15:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12798/15423 [11:01:28<2:15:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12799/15423 [11:01:32<2:15:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12799/15423 [11:01:32<2:15:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12800/15423 [11:01:48<2:15:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12800/15423 [11:01:48<2:15:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12801/15423 [11:02:13<2:15:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12801/15423 [11:02:13<2:15:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12802/15423 [11:02:15<2:15:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12802/15423 [11:02:15<2:15:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12803/15423 [11:02:18<2:15:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12803/15423 [11:02:18<2:15:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12804/15423 [11:02:21<2:15:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12804/15423 [11:02:21<2:15:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12805/15423 [11:02:23<2:15:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12805/15423 [11:02:23<2:15:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12806/15423 [11:02:28<2:15:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12806/15423 [11:02:28<2:15:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12807/15423 [11:02:29<2:15:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12807/15423 [11:02:29<2:15:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12808/15423 [11:02:33<2:15:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12808/15423 [11:02:33<2:15:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12809/15423 [11:02:35<2:15:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12809/15423 [11:02:35<2:15:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12810/15423 [11:02:39<2:15:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12810/15423 [11:02:39<2:15:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12811/15423 [11:02:43<2:15:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12811/15423 [11:02:43<2:15:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12812/15423 [11:02:47<2:15:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12812/15423 [11:02:47<2:15:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12813/15423 [11:02:48<2:15:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12813/15423 [11:02:48<2:15:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12814/15423 [11:02:50<2:14:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12814/15423 [11:02:50<2:14:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12815/15423 [11:02:54<2:14:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12815/15423 [11:02:54<2:14:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12816/15423 [11:02:57<2:14:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12816/15423 [11:02:57<2:14:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12817/15423 [11:03:00<2:14:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12817/15423 [11:03:00<2:14:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12818/15423 [11:03:03<2:14:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12818/15423 [11:03:03<2:14:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12819/15423 [11:03:04<2:14:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12819/15423 [11:03:04<2:14:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12820/15423 [11:03:08<2:14:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12820/15423 [11:03:08<2:14:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12821/15423 [11:03:11<2:14:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12821/15423 [11:03:11<2:14:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12822/15423 [11:03:14<2:14:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12822/15423 [11:03:14<2:14:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12823/15423 [11:03:16<2:14:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12823/15423 [11:03:16<2:14:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12824/15423 [11:03:19<2:14:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12824/15423 [11:03:19<2:14:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12825/15423 [11:03:24<2:14:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12825/15423 [11:03:24<2:14:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12826/15423 [11:03:27<2:14:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12826/15423 [11:03:27<2:14:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12827/15423 [11:03:30<2:14:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12827/15423 [11:03:30<2:14:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12828/15423 [11:03:34<2:14:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12828/15423 [11:03:34<2:14:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12829/15423 [11:03:37<2:14:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12829/15423 [11:03:37<2:14:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12830/15423 [11:03:41<2:14:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12830/15423 [11:03:41<2:14:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12831/15423 [11:03:45<2:14:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12831/15423 [11:03:45<2:14:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12832/15423 [11:03:52<2:14:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12832/15423 [11:03:52<2:14:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12833/15423 [11:03:54<2:13:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12833/15423 [11:03:54<2:13:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12834/15423 [11:03:55<2:13:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12834/15423 [11:03:55<2:13:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12835/15423 [11:03:57<2:13:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12835/15423 [11:03:57<2:13:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12836/15423 [11:03:58<2:13:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12836/15423 [11:03:58<2:13:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12837/15423 [11:04:01<2:13:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12837/15423 [11:04:01<2:13:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12838/15423 [11:04:03<2:13:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12838/15423 [11:04:03<2:13:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12839/15423 [11:04:04<2:13:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12839/15423 [11:04:04<2:13:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12840/15423 [11:04:07<2:13:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12840/15423 [11:04:07<2:13:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12841/15423 [11:04:11<2:13:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12841/15423 [11:04:11<2:13:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12842/15423 [11:04:13<2:13:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12842/15423 [11:04:13<2:13:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12843/15423 [11:04:16<2:13:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12843/15423 [11:04:16<2:13:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12844/15423 [11:04:17<2:13:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12844/15423 [11:04:17<2:13:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12845/15423 [11:04:18<2:13:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12845/15423 [11:04:18<2:13:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12846/15423 [11:04:20<2:13:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12846/15423 [11:04:20<2:13:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12847/15423 [11:04:23<2:13:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12847/15423 [11:04:23<2:13:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12848/15423 [11:04:25<2:13:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12848/15423 [11:04:25<2:13:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12849/15423 [11:04:29<2:13:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12849/15423 [11:04:29<2:13:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12850/15423 [11:04:30<2:13:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12850/15423 [11:04:30<2:13:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12851/15423 [11:04:33<2:13:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12851/15423 [11:04:33<2:13:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12852/15423 [11:04:35<2:12:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12852/15423 [11:04:35<2:12:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12853/15423 [11:04:39<2:12:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12853/15423 [11:04:39<2:12:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12854/15423 [11:04:41<2:12:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12854/15423 [11:04:41<2:12:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12855/15423 [11:04:45<2:12:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12855/15423 [11:04:45<2:12:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12856/15423 [11:04:49<2:12:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12856/15423 [11:04:49<2:12:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12857/15423 [11:04:51<2:12:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12857/15423 [11:04:51<2:12:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12858/15423 [11:04:53<2:12:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12858/15423 [11:04:53<2:12:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12859/15423 [11:04:54<2:12:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12859/15423 [11:04:54<2:12:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12860/15423 [11:04:57<2:12:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12860/15423 [11:04:57<2:12:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12861/15423 [11:05:00<2:12:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12861/15423 [11:05:00<2:12:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12862/15423 [11:05:03<2:12:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12862/15423 [11:05:03<2:12:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12863/15423 [11:05:04<2:12:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12863/15423 [11:05:04<2:12:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12864/15423 [11:05:22<2:12:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12864/15423 [11:05:22<2:12:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12865/15423 [11:05:25<2:12:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12865/15423 [11:05:25<2:12:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12866/15423 [11:05:27<2:12:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12866/15423 [11:05:27<2:12:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12867/15423 [11:05:29<2:12:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12867/15423 [11:05:29<2:12:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12868/15423 [11:05:31<2:12:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12868/15423 [11:05:31<2:12:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12869/15423 [11:05:35<2:12:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12869/15423 [11:05:35<2:12:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12870/15423 [11:05:36<2:12:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12870/15423 [11:05:36<2:12:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12871/15423 [11:05:38<2:11:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12871/15423 [11:05:38<2:11:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12872/15423 [11:05:40<2:11:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12872/15423 [11:05:40<2:11:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12873/15423 [11:05:44<2:11:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12873/15423 [11:05:44<2:11:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12874/15423 [11:05:49<2:11:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12874/15423 [11:05:49<2:11:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12875/15423 [11:05:50<2:11:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12875/15423 [11:05:50<2:11:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12876/15423 [11:05:52<2:11:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12876/15423 [11:05:52<2:11:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12877/15423 [11:05:56<2:11:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12877/15423 [11:05:56<2:11:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  83%|▊| 12878/15423 [11:06:00<2:11:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  83%|▊| 12878/15423 [11:06:00<2:11:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12879/15423 [11:06:05<2:11:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12879/15423 [11:06:05<2:11:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12880/15423 [11:06:06<2:11:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12880/15423 [11:06:06<2:11:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12881/15423 [11:06:10<2:11:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12881/15423 [11:06:10<2:11:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12882/15423 [11:06:15<2:11:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12882/15423 [11:06:15<2:11:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12883/15423 [11:06:16<2:11:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12883/15423 [11:06:16<2:11:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12884/15423 [11:06:17<2:11:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12884/15423 [11:06:17<2:11:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12885/15423 [11:06:19<2:11:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12885/15423 [11:06:19<2:11:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12886/15423 [11:06:22<2:11:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12886/15423 [11:06:22<2:11:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12887/15423 [11:06:24<2:11:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12887/15423 [11:06:24<2:11:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12888/15423 [11:06:25<2:11:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12888/15423 [11:06:25<2:11:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12889/15423 [11:06:26<2:11:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12889/15423 [11:06:26<2:11:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12890/15423 [11:06:29<2:10:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12890/15423 [11:06:29<2:10:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12891/15423 [11:06:33<2:10:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12891/15423 [11:06:33<2:10:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12892/15423 [11:06:35<2:10:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12892/15423 [11:06:35<2:10:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12893/15423 [11:06:39<2:10:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12893/15423 [11:06:39<2:10:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12894/15423 [11:06:42<2:10:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12894/15423 [11:06:42<2:10:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12895/15423 [11:06:44<2:10:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12895/15423 [11:06:44<2:10:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12896/15423 [11:06:59<2:10:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12896/15423 [11:06:59<2:10:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12897/15423 [11:07:03<2:10:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12897/15423 [11:07:03<2:10:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12898/15423 [11:07:07<2:10:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12898/15423 [11:07:07<2:10:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12899/15423 [11:07:09<2:10:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12899/15423 [11:07:09<2:10:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12900/15423 [11:07:11<2:10:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12900/15423 [11:07:11<2:10:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12901/15423 [11:07:12<2:10:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12901/15423 [11:07:12<2:10:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12902/15423 [11:07:14<2:10:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12902/15423 [11:07:14<2:10:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12903/15423 [11:07:16<2:10:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12903/15423 [11:07:16<2:10:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12904/15423 [11:07:19<2:10:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12904/15423 [11:07:19<2:10:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12905/15423 [11:07:19<2:10:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12905/15423 [11:07:19<2:10:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12906/15423 [11:07:22<2:10:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12906/15423 [11:07:22<2:10:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12907/15423 [11:07:25<2:10:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12907/15423 [11:07:25<2:10:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12908/15423 [11:07:27<2:10:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12908/15423 [11:07:27<2:10:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12909/15423 [11:07:29<2:09:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12909/15423 [11:07:29<2:09:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12910/15423 [11:07:30<2:09:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12910/15423 [11:07:30<2:09:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12911/15423 [11:07:33<2:09:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12911/15423 [11:07:33<2:09:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12912/15423 [11:07:37<2:09:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12912/15423 [11:07:37<2:09:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12913/15423 [11:07:39<2:09:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12913/15423 [11:07:39<2:09:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12914/15423 [11:07:44<2:09:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12914/15423 [11:07:44<2:09:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12915/15423 [11:07:46<2:09:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12915/15423 [11:07:46<2:09:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12916/15423 [11:07:49<2:09:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12916/15423 [11:07:49<2:09:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12917/15423 [11:07:54<2:09:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12917/15423 [11:07:54<2:09:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12918/15423 [11:07:56<2:09:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12918/15423 [11:07:56<2:09:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12919/15423 [11:07:58<2:09:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12919/15423 [11:07:58<2:09:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12920/15423 [11:07:59<2:09:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12920/15423 [11:07:59<2:09:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12921/15423 [11:08:02<2:09:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12921/15423 [11:08:02<2:09:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12922/15423 [11:08:07<2:09:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12922/15423 [11:08:07<2:09:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12923/15423 [11:08:10<2:09:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12923/15423 [11:08:10<2:09:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12924/15423 [11:08:13<2:09:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12924/15423 [11:08:13<2:09:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12925/15423 [11:08:17<2:09:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12925/15423 [11:08:17<2:09:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12926/15423 [11:08:19<2:09:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12926/15423 [11:08:19<2:09:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12927/15423 [11:08:23<2:09:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12927/15423 [11:08:23<2:09:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12928/15423 [11:08:34<2:09:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12928/15423 [11:08:34<2:09:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12929/15423 [11:08:35<2:08:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12929/15423 [11:08:35<2:08:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12930/15423 [11:08:39<2:08:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12930/15423 [11:08:39<2:08:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12931/15423 [11:08:44<2:08:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12931/15423 [11:08:44<2:08:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12932/15423 [11:08:46<2:08:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12932/15423 [11:08:46<2:08:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12933/15423 [11:08:48<2:08:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12933/15423 [11:08:48<2:08:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12934/15423 [11:08:51<2:08:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12934/15423 [11:08:51<2:08:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12935/15423 [11:08:55<2:08:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12935/15423 [11:08:55<2:08:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12936/15423 [11:08:58<2:08:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12936/15423 [11:08:58<2:08:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12937/15423 [11:08:59<2:08:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12937/15423 [11:08:59<2:08:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12938/15423 [11:09:02<2:08:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12938/15423 [11:09:02<2:08:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12939/15423 [11:09:04<2:08:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12939/15423 [11:09:04<2:08:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12940/15423 [11:09:06<2:08:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12940/15423 [11:09:06<2:08:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12941/15423 [11:09:07<2:08:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12941/15423 [11:09:07<2:08:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12942/15423 [11:09:10<2:08:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12942/15423 [11:09:10<2:08:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12943/15423 [11:09:11<2:08:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12943/15423 [11:09:11<2:08:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12944/15423 [11:09:15<2:08:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12944/15423 [11:09:15<2:08:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12945/15423 [11:09:19<2:08:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12945/15423 [11:09:19<2:08:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12946/15423 [11:09:22<2:08:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12946/15423 [11:09:22<2:08:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12947/15423 [11:09:22<2:08:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12947/15423 [11:09:22<2:08:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12948/15423 [11:09:24<2:07:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12948/15423 [11:09:24<2:07:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12949/15423 [11:09:26<2:07:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12949/15423 [11:09:26<2:07:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12950/15423 [11:09:30<2:07:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12950/15423 [11:09:30<2:07:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12951/15423 [11:09:35<2:07:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12951/15423 [11:09:35<2:07:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12952/15423 [11:09:37<2:07:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12952/15423 [11:09:37<2:07:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12953/15423 [11:09:38<2:07:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12953/15423 [11:09:38<2:07:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12954/15423 [11:09:39<2:07:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12954/15423 [11:09:39<2:07:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12955/15423 [11:09:41<2:07:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12955/15423 [11:09:41<2:07:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12956/15423 [11:09:46<2:07:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12956/15423 [11:09:46<2:07:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12957/15423 [11:09:49<2:07:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12957/15423 [11:09:49<2:07:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12958/15423 [11:09:52<2:07:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12958/15423 [11:09:52<2:07:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12959/15423 [11:09:56<2:07:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12959/15423 [11:09:56<2:07:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12960/15423 [11:10:09<2:07:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12960/15423 [11:10:09<2:07:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12961/15423 [11:10:12<2:07:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12961/15423 [11:10:12<2:07:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12962/15423 [11:10:16<2:07:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12962/15423 [11:10:16<2:07:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12963/15423 [11:10:18<2:07:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12963/15423 [11:10:18<2:07:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12964/15423 [11:10:19<2:07:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12964/15423 [11:10:19<2:07:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12965/15423 [11:10:21<2:07:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12965/15423 [11:10:21<2:07:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12966/15423 [11:10:25<2:07:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12966/15423 [11:10:25<2:07:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12967/15423 [11:10:27<2:06:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12967/15423 [11:10:27<2:06:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12968/15423 [11:10:28<2:06:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12968/15423 [11:10:28<2:06:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12969/15423 [11:10:29<2:06:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12969/15423 [11:10:29<2:06:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12970/15423 [11:10:33<2:06:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12970/15423 [11:10:33<2:06:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12971/15423 [11:10:34<2:06:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12971/15423 [11:10:34<2:06:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12972/15423 [11:10:38<2:06:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12972/15423 [11:10:38<2:06:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12973/15423 [11:10:41<2:06:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12973/15423 [11:10:41<2:06:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12974/15423 [11:10:43<2:06:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12974/15423 [11:10:43<2:06:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12975/15423 [11:10:46<2:06:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12975/15423 [11:10:46<2:06:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12976/15423 [11:10:49<2:06:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12976/15423 [11:10:49<2:06:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12977/15423 [11:10:53<2:06:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12977/15423 [11:10:53<2:06:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12978/15423 [11:10:57<2:06:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12978/15423 [11:10:57<2:06:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12979/15423 [11:11:00<2:06:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12979/15423 [11:11:00<2:06:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12980/15423 [11:11:01<2:06:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12980/15423 [11:11:01<2:06:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12981/15423 [11:11:03<2:06:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12981/15423 [11:11:03<2:06:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12982/15423 [11:11:06<2:06:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12982/15423 [11:11:06<2:06:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12983/15423 [11:11:08<2:06:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12983/15423 [11:11:08<2:06:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12984/15423 [11:11:12<2:06:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12984/15423 [11:11:12<2:06:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12985/15423 [11:11:14<2:06:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12985/15423 [11:11:14<2:06:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12986/15423 [11:11:16<2:05:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12986/15423 [11:11:16<2:05:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12987/15423 [11:11:18<2:05:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12987/15423 [11:11:18<2:05:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12988/15423 [11:11:21<2:05:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12988/15423 [11:11:21<2:05:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12989/15423 [11:11:23<2:05:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12989/15423 [11:11:23<2:05:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12990/15423 [11:11:24<2:05:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12990/15423 [11:11:24<2:05:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12991/15423 [11:11:27<2:05:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12991/15423 [11:11:27<2:05:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12992/15423 [11:11:48<2:05:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12992/15423 [11:11:48<2:05:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12993/15423 [11:11:51<2:05:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12993/15423 [11:11:51<2:05:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12994/15423 [11:11:55<2:05:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12994/15423 [11:11:55<2:05:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12995/15423 [11:11:59<2:05:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12995/15423 [11:11:59<2:05:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12996/15423 [11:12:03<2:05:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12996/15423 [11:12:03<2:05:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12997/15423 [11:12:07<2:05:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12997/15423 [11:12:07<2:05:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12998/15423 [11:12:09<2:05:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12998/15423 [11:12:09<2:05:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 12999/15423 [11:12:12<2:05:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 12999/15423 [11:12:12<2:05:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13000/15423 [11:12:13<2:05:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13000/15423 [11:12:13<2:05:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13001/15423 [11:12:14<2:05:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13001/15423 [11:12:14<2:05:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13002/15423 [11:12:15<2:05:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13002/15423 [11:12:15<2:05:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13003/15423 [11:12:16<2:05:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13003/15423 [11:12:16<2:05:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13004/15423 [11:12:20<2:05:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13004/15423 [11:12:20<2:05:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13005/15423 [11:12:22<2:05:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13005/15423 [11:12:22<2:05:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13006/15423 [11:12:24<2:04:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13006/15423 [11:12:24<2:04:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13007/15423 [11:12:26<2:04:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13007/15423 [11:12:26<2:04:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13008/15423 [11:12:31<2:04:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13008/15423 [11:12:31<2:04:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13009/15423 [11:12:32<2:04:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13009/15423 [11:12:32<2:04:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13010/15423 [11:12:35<2:04:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13010/15423 [11:12:35<2:04:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13011/15423 [11:12:36<2:04:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13011/15423 [11:12:36<2:04:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13012/15423 [11:12:38<2:04:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13012/15423 [11:12:38<2:04:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13013/15423 [11:12:42<2:04:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13013/15423 [11:12:42<2:04:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13014/15423 [11:12:46<2:04:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13014/15423 [11:12:46<2:04:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13015/15423 [11:12:47<2:04:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13015/15423 [11:12:47<2:04:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13016/15423 [11:12:49<2:04:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13016/15423 [11:12:49<2:04:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13017/15423 [11:12:52<2:04:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13017/15423 [11:12:52<2:04:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13018/15423 [11:12:56<2:04:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13018/15423 [11:12:56<2:04:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13019/15423 [11:13:00<2:04:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13019/15423 [11:13:00<2:04:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13020/15423 [11:13:02<2:04:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13020/15423 [11:13:02<2:04:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13021/15423 [11:13:03<2:04:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13021/15423 [11:13:03<2:04:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13022/15423 [11:13:05<2:04:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13022/15423 [11:13:05<2:04:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13023/15423 [11:13:09<2:04:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13023/15423 [11:13:09<2:04:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13024/15423 [11:13:22<2:04:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13024/15423 [11:13:22<2:04:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13025/15423 [11:13:25<2:03:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13025/15423 [11:13:25<2:03:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13026/15423 [11:13:27<2:03:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13026/15423 [11:13:27<2:03:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13027/15423 [11:13:28<2:03:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13027/15423 [11:13:28<2:03:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13028/15423 [11:13:31<2:03:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13028/15423 [11:13:31<2:03:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13029/15423 [11:13:33<2:03:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13029/15423 [11:13:33<2:03:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13030/15423 [11:13:34<2:03:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13030/15423 [11:13:34<2:03:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13031/15423 [11:13:36<2:03:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13031/15423 [11:13:36<2:03:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  84%|▊| 13032/15423 [11:13:38<2:03:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  84%|▊| 13032/15423 [11:13:38<2:03:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13033/15423 [11:13:41<2:03:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13033/15423 [11:13:41<2:03:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13034/15423 [11:13:45<2:03:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13034/15423 [11:13:45<2:03:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13035/15423 [11:13:49<2:03:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13035/15423 [11:13:49<2:03:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13036/15423 [11:13:51<2:03:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13036/15423 [11:13:51<2:03:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13037/15423 [11:13:54<2:03:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13037/15423 [11:13:54<2:03:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13038/15423 [11:13:57<2:03:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13038/15423 [11:13:57<2:03:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13039/15423 [11:14:00<2:03:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13039/15423 [11:14:00<2:03:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13040/15423 [11:14:02<2:03:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13040/15423 [11:14:02<2:03:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13041/15423 [11:14:06<2:03:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13041/15423 [11:14:06<2:03:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13042/15423 [11:14:07<2:03:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13042/15423 [11:14:07<2:03:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13043/15423 [11:14:11<2:03:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13043/15423 [11:14:11<2:03:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13044/15423 [11:14:12<2:02:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13044/15423 [11:14:12<2:02:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13045/15423 [11:14:14<2:02:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13045/15423 [11:14:14<2:02:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13046/15423 [11:14:17<2:02:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13046/15423 [11:14:17<2:02:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13047/15423 [11:14:20<2:02:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13047/15423 [11:14:20<2:02:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13048/15423 [11:14:22<2:02:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13048/15423 [11:14:22<2:02:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13049/15423 [11:14:24<2:02:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13049/15423 [11:14:24<2:02:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13050/15423 [11:14:29<2:02:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13050/15423 [11:14:29<2:02:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13051/15423 [11:14:33<2:02:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13051/15423 [11:14:33<2:02:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13052/15423 [11:14:36<2:02:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13052/15423 [11:14:36<2:02:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13053/15423 [11:14:39<2:02:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13053/15423 [11:14:39<2:02:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13054/15423 [11:14:42<2:02:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13054/15423 [11:14:42<2:02:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13055/15423 [11:14:44<2:02:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13055/15423 [11:14:44<2:02:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13056/15423 [11:15:06<2:02:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13056/15423 [11:15:06<2:02:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13057/15423 [11:15:09<2:02:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13057/15423 [11:15:09<2:02:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13058/15423 [11:15:12<2:02:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13058/15423 [11:15:12<2:02:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13059/15423 [11:15:14<2:02:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13059/15423 [11:15:14<2:02:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13060/15423 [11:15:17<2:02:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13060/15423 [11:15:17<2:02:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13061/15423 [11:15:22<2:02:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13061/15423 [11:15:22<2:02:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13062/15423 [11:15:24<2:02:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13062/15423 [11:15:24<2:02:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13063/15423 [11:15:28<2:02:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13063/15423 [11:15:28<2:02:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13064/15423 [11:15:31<2:01:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13064/15423 [11:15:31<2:01:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13065/15423 [11:15:33<2:01:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13065/15423 [11:15:33<2:01:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13066/15423 [11:15:35<2:01:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13066/15423 [11:15:35<2:01:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13067/15423 [11:15:39<2:01:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13067/15423 [11:15:39<2:01:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13068/15423 [11:15:43<2:01:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13068/15423 [11:15:43<2:01:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13069/15423 [11:15:48<2:01:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13069/15423 [11:15:48<2:01:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13070/15423 [11:15:49<2:01:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13070/15423 [11:15:49<2:01:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13071/15423 [11:15:54<2:01:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13071/15423 [11:15:54<2:01:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13072/15423 [11:15:55<2:01:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13072/15423 [11:15:55<2:01:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13073/15423 [11:15:56<2:01:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13073/15423 [11:15:56<2:01:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13074/15423 [11:15:57<2:01:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13074/15423 [11:15:57<2:01:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13075/15423 [11:15:58<2:01:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13075/15423 [11:15:58<2:01:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13076/15423 [11:16:02<2:01:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13076/15423 [11:16:02<2:01:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13077/15423 [11:16:06<2:01:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13077/15423 [11:16:06<2:01:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13078/15423 [11:16:06<2:01:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13078/15423 [11:16:06<2:01:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13079/15423 [11:16:09<2:01:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13079/15423 [11:16:09<2:01:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13080/15423 [11:16:11<2:01:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13080/15423 [11:16:11<2:01:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13081/15423 [11:16:14<2:01:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13081/15423 [11:16:14<2:01:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13082/15423 [11:16:17<2:01:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13082/15423 [11:16:17<2:01:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13083/15423 [11:16:19<2:00:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13083/15423 [11:16:19<2:00:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13084/15423 [11:16:20<2:00:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13084/15423 [11:16:20<2:00:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13085/15423 [11:16:25<2:00:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13085/15423 [11:16:25<2:00:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13086/15423 [11:16:28<2:00:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13086/15423 [11:16:28<2:00:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13087/15423 [11:16:30<2:00:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13087/15423 [11:16:30<2:00:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13088/15423 [11:16:43<2:00:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13088/15423 [11:16:43<2:00:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13089/15423 [11:16:45<2:00:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13089/15423 [11:16:45<2:00:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13090/15423 [11:16:47<2:00:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13090/15423 [11:16:47<2:00:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13091/15423 [11:16:51<2:00:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13091/15423 [11:16:51<2:00:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13092/15423 [11:16:53<2:00:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13092/15423 [11:16:53<2:00:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13093/15423 [11:16:58<2:00:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13093/15423 [11:16:58<2:00:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13094/15423 [11:16:59<2:00:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13094/15423 [11:16:59<2:00:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13095/15423 [11:17:00<2:00:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13095/15423 [11:17:00<2:00:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13096/15423 [11:17:02<2:00:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13096/15423 [11:17:02<2:00:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13097/15423 [11:17:04<2:00:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13097/15423 [11:17:04<2:00:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13098/15423 [11:17:06<2:00:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13098/15423 [11:17:06<2:00:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13099/15423 [11:17:06<2:00:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13099/15423 [11:17:06<2:00:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13100/15423 [11:17:08<2:00:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13100/15423 [11:17:08<2:00:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13101/15423 [11:17:12<2:00:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13101/15423 [11:17:12<2:00:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13102/15423 [11:17:13<1:59:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13102/15423 [11:17:13<1:59:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13103/15423 [11:17:15<1:59:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13103/15423 [11:17:15<1:59:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13104/15423 [11:17:19<1:59:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13104/15423 [11:17:19<1:59:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13105/15423 [11:17:21<1:59:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13105/15423 [11:17:21<1:59:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13106/15423 [11:17:23<1:59:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13106/15423 [11:17:23<1:59:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13107/15423 [11:17:25<1:59:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13107/15423 [11:17:25<1:59:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13108/15423 [11:17:28<1:59:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13108/15423 [11:17:28<1:59:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13109/15423 [11:17:30<1:59:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13109/15423 [11:17:30<1:59:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13110/15423 [11:17:33<1:59:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13110/15423 [11:17:33<1:59:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13111/15423 [11:17:36<1:59:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13111/15423 [11:17:36<1:59:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13112/15423 [11:17:40<1:59:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13112/15423 [11:17:40<1:59:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13113/15423 [11:17:42<1:59:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13113/15423 [11:17:42<1:59:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13114/15423 [11:17:45<1:59:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13114/15423 [11:17:45<1:59:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13115/15423 [11:17:46<1:59:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13115/15423 [11:17:46<1:59:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13116/15423 [11:17:50<1:59:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13116/15423 [11:17:50<1:59:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13117/15423 [11:17:53<1:59:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13117/15423 [11:17:53<1:59:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13118/15423 [11:17:55<1:59:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13118/15423 [11:17:55<1:59:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13119/15423 [11:17:59<1:59:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13119/15423 [11:17:59<1:59:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13120/15423 [11:18:18<1:59:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13120/15423 [11:18:18<1:59:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13121/15423 [11:18:22<1:59:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13121/15423 [11:18:22<1:59:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13122/15423 [11:18:26<1:58:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13122/15423 [11:18:26<1:58:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13123/15423 [11:18:30<1:58:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13123/15423 [11:18:30<1:58:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13124/15423 [11:18:34<1:58:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13124/15423 [11:18:34<1:58:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13125/15423 [11:18:38<1:58:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13125/15423 [11:18:38<1:58:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13126/15423 [11:18:40<1:58:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13126/15423 [11:18:40<1:58:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13127/15423 [11:18:42<1:58:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13127/15423 [11:18:42<1:58:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13128/15423 [11:18:46<1:58:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13128/15423 [11:18:46<1:58:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13129/15423 [11:18:48<1:58:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13129/15423 [11:18:48<1:58:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13130/15423 [11:18:50<1:58:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13130/15423 [11:18:50<1:58:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13131/15423 [11:18:53<1:58:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13131/15423 [11:18:53<1:58:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13132/15423 [11:18:54<1:58:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13132/15423 [11:18:54<1:58:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13133/15423 [11:18:58<1:58:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13133/15423 [11:18:58<1:58:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13134/15423 [11:18:58<1:58:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13134/15423 [11:18:58<1:58:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13135/15423 [11:18:59<1:58:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13135/15423 [11:18:59<1:58:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13136/15423 [11:19:03<1:58:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13136/15423 [11:19:03<1:58:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13137/15423 [11:19:03<1:58:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13137/15423 [11:19:03<1:58:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13138/15423 [11:19:06<1:58:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13138/15423 [11:19:06<1:58:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13139/15423 [11:19:07<1:58:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13139/15423 [11:19:07<1:58:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13140/15423 [11:19:08<1:57:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13140/15423 [11:19:08<1:57:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13141/15423 [11:19:11<1:57:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13141/15423 [11:19:11<1:57:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13142/15423 [11:19:14<1:57:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13142/15423 [11:19:14<1:57:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13143/15423 [11:19:19<1:57:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13143/15423 [11:19:19<1:57:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13144/15423 [11:19:21<1:57:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13144/15423 [11:19:21<1:57:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13145/15423 [11:19:24<1:57:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13145/15423 [11:19:24<1:57:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13146/15423 [11:19:28<1:57:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13146/15423 [11:19:28<1:57:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13147/15423 [11:19:32<1:57:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13147/15423 [11:19:32<1:57:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13148/15423 [11:19:36<1:57:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13148/15423 [11:19:36<1:57:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13149/15423 [11:19:37<1:57:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13149/15423 [11:19:37<1:57:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13150/15423 [11:19:38<1:57:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13150/15423 [11:19:38<1:57:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13151/15423 [11:19:42<1:57:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13151/15423 [11:19:42<1:57:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13152/15423 [11:19:55<1:57:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13152/15423 [11:19:55<1:57:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13153/15423 [11:19:55<1:57:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13153/15423 [11:19:55<1:57:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13154/15423 [11:20:00<1:57:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13154/15423 [11:20:00<1:57:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13155/15423 [11:20:02<1:57:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13155/15423 [11:20:02<1:57:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13156/15423 [11:20:05<1:57:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13156/15423 [11:20:05<1:57:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13157/15423 [11:20:06<1:57:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13157/15423 [11:20:06<1:57:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13158/15423 [11:20:08<1:57:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13158/15423 [11:20:08<1:57:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13159/15423 [11:20:09<1:57:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13159/15423 [11:20:09<1:57:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13160/15423 [11:20:13<1:56:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13160/15423 [11:20:13<1:56:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13161/15423 [11:20:15<1:56:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13161/15423 [11:20:15<1:56:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13162/15423 [11:20:17<1:56:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13162/15423 [11:20:17<1:56:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13163/15423 [11:20:19<1:56:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13163/15423 [11:20:19<1:56:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13164/15423 [11:20:23<1:56:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13164/15423 [11:20:23<1:56:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13165/15423 [11:20:25<1:56:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13165/15423 [11:20:25<1:56:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13166/15423 [11:20:27<1:56:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13166/15423 [11:20:27<1:56:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13167/15423 [11:20:31<1:56:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13167/15423 [11:20:31<1:56:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13168/15423 [11:20:34<1:56:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13168/15423 [11:20:34<1:56:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13169/15423 [11:20:37<1:56:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13169/15423 [11:20:37<1:56:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13170/15423 [11:20:41<1:56:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13170/15423 [11:20:41<1:56:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13171/15423 [11:20:44<1:56:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13171/15423 [11:20:44<1:56:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13172/15423 [11:20:47<1:56:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13172/15423 [11:20:47<1:56:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13173/15423 [11:20:49<1:56:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13173/15423 [11:20:49<1:56:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13174/15423 [11:20:52<1:56:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13174/15423 [11:20:52<1:56:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13175/15423 [11:20:57<1:56:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13175/15423 [11:20:57<1:56:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13176/15423 [11:21:01<1:56:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13176/15423 [11:21:01<1:56:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13177/15423 [11:21:03<1:56:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13177/15423 [11:21:03<1:56:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13178/15423 [11:21:08<1:56:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13178/15423 [11:21:08<1:56:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13179/15423 [11:21:09<1:55:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13179/15423 [11:21:09<1:55:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13180/15423 [11:21:10<1:55:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13180/15423 [11:21:10<1:55:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13181/15423 [11:21:11<1:55:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13181/15423 [11:21:11<1:55:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13182/15423 [11:21:16<1:55:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13182/15423 [11:21:16<1:55:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13183/15423 [11:21:19<1:55:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13183/15423 [11:21:19<1:55:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13184/15423 [11:21:30<1:55:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13184/15423 [11:21:30<1:55:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13185/15423 [11:21:34<1:55:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13185/15423 [11:21:34<1:55:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  85%|▊| 13186/15423 [11:21:38<1:55:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  85%|▊| 13186/15423 [11:21:38<1:55:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13187/15423 [11:21:41<1:55:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13187/15423 [11:21:41<1:55:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13188/15423 [11:21:44<1:55:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13188/15423 [11:21:44<1:55:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13189/15423 [11:21:44<1:55:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13189/15423 [11:21:44<1:55:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13190/15423 [11:21:45<1:55:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13190/15423 [11:21:45<1:55:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13191/15423 [11:21:49<1:55:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13191/15423 [11:21:49<1:55:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13192/15423 [11:21:52<1:55:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13192/15423 [11:21:52<1:55:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13193/15423 [11:21:54<1:55:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13193/15423 [11:21:54<1:55:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13194/15423 [11:21:56<1:55:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13194/15423 [11:21:56<1:55:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13195/15423 [11:21:59<1:55:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13195/15423 [11:21:59<1:55:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13196/15423 [11:22:03<1:55:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13196/15423 [11:22:03<1:55:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13197/15423 [11:22:04<1:55:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13197/15423 [11:22:04<1:55:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13198/15423 [11:22:06<1:54:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13198/15423 [11:22:06<1:54:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13199/15423 [11:22:08<1:54:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13199/15423 [11:22:08<1:54:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13200/15423 [11:22:09<1:54:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13200/15423 [11:22:09<1:54:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13201/15423 [11:22:14<1:54:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13201/15423 [11:22:14<1:54:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13202/15423 [11:22:15<1:54:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13202/15423 [11:22:15<1:54:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13203/15423 [11:22:19<1:54:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13203/15423 [11:22:19<1:54:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13204/15423 [11:22:22<1:54:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13204/15423 [11:22:22<1:54:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13205/15423 [11:22:25<1:54:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13205/15423 [11:22:25<1:54:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13206/15423 [11:22:25<1:54:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13206/15423 [11:22:25<1:54:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13207/15423 [11:22:29<1:54:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13207/15423 [11:22:29<1:54:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13208/15423 [11:22:31<1:54:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13208/15423 [11:22:31<1:54:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13209/15423 [11:22:34<1:54:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13209/15423 [11:22:34<1:54:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13210/15423 [11:22:37<1:54:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13210/15423 [11:22:37<1:54:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13211/15423 [11:22:41<1:54:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13211/15423 [11:22:41<1:54:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13212/15423 [11:22:43<1:54:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13212/15423 [11:22:43<1:54:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13213/15423 [11:22:47<1:54:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13213/15423 [11:22:47<1:54:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13214/15423 [11:22:49<1:54:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13214/15423 [11:22:49<1:54:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13215/15423 [11:22:51<1:54:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13215/15423 [11:22:51<1:54:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13216/15423 [11:23:07<1:54:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13216/15423 [11:23:07<1:54:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13217/15423 [11:23:11<1:54:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13217/15423 [11:23:11<1:54:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13218/15423 [11:23:14<1:53:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13218/15423 [11:23:14<1:53:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13219/15423 [11:23:16<1:53:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13219/15423 [11:23:16<1:53:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13220/15423 [11:23:17<1:53:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13220/15423 [11:23:17<1:53:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13221/15423 [11:23:18<1:53:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13221/15423 [11:23:18<1:53:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13222/15423 [11:23:19<1:53:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13222/15423 [11:23:19<1:53:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13223/15423 [11:23:23<1:53:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13223/15423 [11:23:23<1:53:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13224/15423 [11:23:25<1:53:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13224/15423 [11:23:25<1:53:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13225/15423 [11:23:28<1:53:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13225/15423 [11:23:28<1:53:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13226/15423 [11:23:30<1:53:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13226/15423 [11:23:30<1:53:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13227/15423 [11:23:33<1:53:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13227/15423 [11:23:33<1:53:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13228/15423 [11:23:37<1:53:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13228/15423 [11:23:37<1:53:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13229/15423 [11:23:39<1:53:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13229/15423 [11:23:39<1:53:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13230/15423 [11:23:41<1:53:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13230/15423 [11:23:41<1:53:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13231/15423 [11:23:44<1:53:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13231/15423 [11:23:44<1:53:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13232/15423 [11:23:45<1:53:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13232/15423 [11:23:45<1:53:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13233/15423 [11:23:49<1:53:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13233/15423 [11:23:49<1:53:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13234/15423 [11:23:52<1:53:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13234/15423 [11:23:52<1:53:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13235/15423 [11:23:55<1:53:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13235/15423 [11:23:55<1:53:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13236/15423 [11:23:58<1:53:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13236/15423 [11:23:58<1:53:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13237/15423 [11:24:02<1:52:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13237/15423 [11:24:02<1:52:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13238/15423 [11:24:03<1:52:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13238/15423 [11:24:03<1:52:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13239/15423 [11:24:06<1:52:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13239/15423 [11:24:06<1:52:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13240/15423 [11:24:07<1:52:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13240/15423 [11:24:07<1:52:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13241/15423 [11:24:08<1:52:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13241/15423 [11:24:08<1:52:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13242/15423 [11:24:11<1:52:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13242/15423 [11:24:11<1:52:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13243/15423 [11:24:13<1:52:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13243/15423 [11:24:13<1:52:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13244/15423 [11:24:14<1:52:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13244/15423 [11:24:14<1:52:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13245/15423 [11:24:16<1:52:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13245/15423 [11:24:16<1:52:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13246/15423 [11:24:18<1:52:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13246/15423 [11:24:18<1:52:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13247/15423 [11:24:19<1:52:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13247/15423 [11:24:19<1:52:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13248/15423 [11:24:45<1:52:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13248/15423 [11:24:45<1:52:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13249/15423 [11:24:47<1:52:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13249/15423 [11:24:47<1:52:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13250/15423 [11:24:49<1:52:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13250/15423 [11:24:49<1:52:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13251/15423 [11:24:50<1:52:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13251/15423 [11:24:50<1:52:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13252/15423 [11:24:54<1:52:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13252/15423 [11:24:54<1:52:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13253/15423 [11:24:55<1:52:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13253/15423 [11:24:55<1:52:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13254/15423 [11:24:59<1:52:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13254/15423 [11:24:59<1:52:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13255/15423 [11:25:01<1:52:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13255/15423 [11:25:01<1:52:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13256/15423 [11:25:06<1:51:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13256/15423 [11:25:06<1:51:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13257/15423 [11:25:10<1:51:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13257/15423 [11:25:10<1:51:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13258/15423 [11:25:14<1:51:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13258/15423 [11:25:14<1:51:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13259/15423 [11:25:18<1:51:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13259/15423 [11:25:18<1:51:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13260/15423 [11:25:21<1:51:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13260/15423 [11:25:21<1:51:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13261/15423 [11:25:25<1:51:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13261/15423 [11:25:25<1:51:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13262/15423 [11:25:27<1:51:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13262/15423 [11:25:27<1:51:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13263/15423 [11:25:29<1:51:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13263/15423 [11:25:29<1:51:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13264/15423 [11:25:31<1:51:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13264/15423 [11:25:31<1:51:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13265/15423 [11:25:31<1:51:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13265/15423 [11:25:31<1:51:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13266/15423 [11:25:34<1:51:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13266/15423 [11:25:34<1:51:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13267/15423 [11:25:37<1:51:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13267/15423 [11:25:37<1:51:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13268/15423 [11:25:42<1:51:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13268/15423 [11:25:42<1:51:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13269/15423 [11:25:43<1:51:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13269/15423 [11:25:43<1:51:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13270/15423 [11:25:48<1:51:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13270/15423 [11:25:48<1:51:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13271/15423 [11:25:51<1:51:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13271/15423 [11:25:51<1:51:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13272/15423 [11:25:54<1:51:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13272/15423 [11:25:54<1:51:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13273/15423 [11:25:58<1:51:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13273/15423 [11:25:58<1:51:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13274/15423 [11:26:01<1:51:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13274/15423 [11:26:01<1:51:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13275/15423 [11:26:03<1:51:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13275/15423 [11:26:03<1:51:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13276/15423 [11:26:05<1:50:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13276/15423 [11:26:05<1:50:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13277/15423 [11:26:10<1:50:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13277/15423 [11:26:10<1:50:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13278/15423 [11:26:12<1:50:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13278/15423 [11:26:12<1:50:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13279/15423 [11:26:14<1:50:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13279/15423 [11:26:14<1:50:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13280/15423 [11:26:27<1:50:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13280/15423 [11:26:27<1:50:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13281/15423 [11:26:29<1:50:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13281/15423 [11:26:29<1:50:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13282/15423 [11:26:34<1:50:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13282/15423 [11:26:34<1:50:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13283/15423 [11:26:38<1:50:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13283/15423 [11:26:38<1:50:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13284/15423 [11:26:39<1:50:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13284/15423 [11:26:39<1:50:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13285/15423 [11:26:43<1:50:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13285/15423 [11:26:43<1:50:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13286/15423 [11:26:46<1:50:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13286/15423 [11:26:46<1:50:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13287/15423 [11:26:50<1:50:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13287/15423 [11:26:50<1:50:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13288/15423 [11:26:53<1:50:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13288/15423 [11:26:53<1:50:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13289/15423 [11:26:57<1:50:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13289/15423 [11:26:57<1:50:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13290/15423 [11:26:59<1:50:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13290/15423 [11:26:59<1:50:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13291/15423 [11:27:03<1:50:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13291/15423 [11:27:03<1:50:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13292/15423 [11:27:07<1:50:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13292/15423 [11:27:07<1:50:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13293/15423 [11:27:08<1:50:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13293/15423 [11:27:08<1:50:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13294/15423 [11:27:10<1:50:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13294/15423 [11:27:10<1:50:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13295/15423 [11:27:13<1:49:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13295/15423 [11:27:13<1:49:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13296/15423 [11:27:18<1:49:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13296/15423 [11:27:18<1:49:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13297/15423 [11:27:19<1:49:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13297/15423 [11:27:19<1:49:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13298/15423 [11:27:21<1:49:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13298/15423 [11:27:21<1:49:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13299/15423 [11:27:22<1:49:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13299/15423 [11:27:22<1:49:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13300/15423 [11:27:24<1:49:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13300/15423 [11:27:24<1:49:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13301/15423 [11:27:27<1:49:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13301/15423 [11:27:27<1:49:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13302/15423 [11:27:29<1:49:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13302/15423 [11:27:29<1:49:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13303/15423 [11:27:32<1:49:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13303/15423 [11:27:32<1:49:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13304/15423 [11:27:36<1:49:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13304/15423 [11:27:36<1:49:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13305/15423 [11:27:37<1:49:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13305/15423 [11:27:37<1:49:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13306/15423 [11:27:39<1:49:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13306/15423 [11:27:39<1:49:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13307/15423 [11:27:40<1:49:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13307/15423 [11:27:40<1:49:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13308/15423 [11:27:41<1:49:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13308/15423 [11:27:41<1:49:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13309/15423 [11:27:42<1:49:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13309/15423 [11:27:42<1:49:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13310/15423 [11:27:43<1:49:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13310/15423 [11:27:43<1:49:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13311/15423 [11:27:45<1:49:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13311/15423 [11:27:45<1:49:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13312/15423 [11:27:59<1:49:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13312/15423 [11:27:59<1:49:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13313/15423 [11:28:01<1:49:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13313/15423 [11:28:01<1:49:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13314/15423 [11:28:05<1:48:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13314/15423 [11:28:05<1:48:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13315/15423 [11:28:06<1:48:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13315/15423 [11:28:06<1:48:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13316/15423 [11:28:09<1:48:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13316/15423 [11:28:09<1:48:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13317/15423 [11:28:10<1:48:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13317/15423 [11:28:10<1:48:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13318/15423 [11:28:13<1:48:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13318/15423 [11:28:13<1:48:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13319/15423 [11:28:16<1:48:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13319/15423 [11:28:16<1:48:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13320/15423 [11:28:18<1:48:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13320/15423 [11:28:18<1:48:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13321/15423 [11:28:21<1:48:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13321/15423 [11:28:21<1:48:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13322/15423 [11:28:25<1:48:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13322/15423 [11:28:25<1:48:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13323/15423 [11:28:28<1:48:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13323/15423 [11:28:28<1:48:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13324/15423 [11:28:31<1:48:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13324/15423 [11:28:31<1:48:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13325/15423 [11:28:34<1:48:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13325/15423 [11:28:34<1:48:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13326/15423 [11:28:35<1:48:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13326/15423 [11:28:35<1:48:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13327/15423 [11:28:38<1:48:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13327/15423 [11:28:38<1:48:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13328/15423 [11:28:39<1:48:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13328/15423 [11:28:39<1:48:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13329/15423 [11:28:43<1:48:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13329/15423 [11:28:43<1:48:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13330/15423 [11:28:45<1:48:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13330/15423 [11:28:45<1:48:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13331/15423 [11:28:49<1:48:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13331/15423 [11:28:49<1:48:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13332/15423 [11:28:50<1:48:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13332/15423 [11:28:50<1:48:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13333/15423 [11:28:52<1:47:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13333/15423 [11:28:52<1:47:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13334/15423 [11:28:53<1:47:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13334/15423 [11:28:53<1:47:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13335/15423 [11:28:55<1:47:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13335/15423 [11:28:55<1:47:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13336/15423 [11:28:57<1:47:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13336/15423 [11:28:57<1:47:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13337/15423 [11:29:01<1:47:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13337/15423 [11:29:01<1:47:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13338/15423 [11:29:05<1:47:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13338/15423 [11:29:05<1:47:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13339/15423 [11:29:09<1:47:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13339/15423 [11:29:09<1:47:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  86%|▊| 13340/15423 [11:29:10<1:47:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  86%|▊| 13340/15423 [11:29:10<1:47:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13341/15423 [11:29:11<1:47:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13341/15423 [11:29:11<1:47:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13342/15423 [11:29:14<1:47:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13342/15423 [11:29:14<1:47:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13343/15423 [11:29:16<1:47:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13343/15423 [11:29:16<1:47:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13344/15423 [11:29:43<1:47:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13344/15423 [11:29:43<1:47:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13345/15423 [11:29:46<1:47:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13345/15423 [11:29:46<1:47:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13346/15423 [11:29:48<1:47:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13346/15423 [11:29:48<1:47:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13347/15423 [11:29:51<1:47:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13347/15423 [11:29:51<1:47:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13348/15423 [11:29:55<1:47:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13348/15423 [11:29:55<1:47:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13349/15423 [11:29:58<1:47:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13349/15423 [11:29:58<1:47:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13350/15423 [11:30:02<1:47:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13350/15423 [11:30:02<1:47:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13351/15423 [11:30:03<1:47:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13351/15423 [11:30:03<1:47:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13352/15423 [11:30:05<1:47:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13352/15423 [11:30:05<1:47:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13353/15423 [11:30:08<1:46:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13353/15423 [11:30:08<1:46:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13354/15423 [11:30:10<1:46:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13354/15423 [11:30:10<1:46:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13355/15423 [11:30:11<1:46:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13355/15423 [11:30:11<1:46:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13356/15423 [11:30:13<1:46:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13356/15423 [11:30:13<1:46:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13357/15423 [11:30:16<1:46:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13357/15423 [11:30:16<1:46:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13358/15423 [11:30:19<1:46:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13358/15423 [11:30:19<1:46:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13359/15423 [11:30:22<1:46:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13359/15423 [11:30:22<1:46:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13360/15423 [11:30:24<1:46:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13360/15423 [11:30:24<1:46:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13361/15423 [11:30:28<1:46:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13361/15423 [11:30:28<1:46:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13362/15423 [11:30:31<1:46:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13362/15423 [11:30:31<1:46:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13363/15423 [11:30:33<1:46:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13363/15423 [11:30:33<1:46:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13364/15423 [11:30:34<1:46:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13364/15423 [11:30:34<1:46:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13365/15423 [11:30:38<1:46:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13365/15423 [11:30:38<1:46:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13366/15423 [11:30:42<1:46:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13366/15423 [11:30:42<1:46:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13367/15423 [11:30:43<1:46:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13367/15423 [11:30:43<1:46:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13368/15423 [11:30:45<1:46:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13368/15423 [11:30:45<1:46:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13369/15423 [11:30:49<1:46:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13369/15423 [11:30:49<1:46:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13370/15423 [11:30:50<1:46:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13370/15423 [11:30:50<1:46:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13371/15423 [11:30:54<1:46:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13371/15423 [11:30:54<1:46:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13372/15423 [11:30:57<1:45:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13372/15423 [11:30:57<1:45:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13373/15423 [11:30:59<1:45:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13373/15423 [11:30:59<1:45:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13374/15423 [11:31:02<1:45:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13374/15423 [11:31:02<1:45:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13375/15423 [11:31:06<1:45:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13375/15423 [11:31:06<1:45:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13376/15423 [11:31:27<1:45:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13376/15423 [11:31:27<1:45:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13377/15423 [11:31:29<1:45:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13377/15423 [11:31:29<1:45:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13378/15423 [11:31:31<1:45:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13378/15423 [11:31:31<1:45:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13379/15423 [11:31:33<1:45:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13379/15423 [11:31:33<1:45:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13380/15423 [11:31:34<1:45:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13380/15423 [11:31:34<1:45:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13381/15423 [11:31:36<1:45:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13381/15423 [11:31:36<1:45:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13382/15423 [11:31:38<1:45:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13382/15423 [11:31:38<1:45:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13383/15423 [11:31:42<1:45:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13383/15423 [11:31:42<1:45:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13384/15423 [11:31:46<1:45:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13384/15423 [11:31:46<1:45:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13385/15423 [11:31:49<1:45:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13385/15423 [11:31:49<1:45:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13386/15423 [11:31:50<1:45:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13386/15423 [11:31:50<1:45:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13387/15423 [11:31:53<1:45:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13387/15423 [11:31:53<1:45:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13388/15423 [11:31:56<1:45:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13388/15423 [11:31:56<1:45:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13389/15423 [11:32:00<1:45:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13389/15423 [11:32:00<1:45:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13390/15423 [11:32:03<1:45:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13390/15423 [11:32:03<1:45:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13391/15423 [11:32:04<1:45:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13391/15423 [11:32:04<1:45:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13392/15423 [11:32:05<1:44:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13392/15423 [11:32:05<1:44:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13393/15423 [11:32:08<1:44:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13393/15423 [11:32:08<1:44:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13394/15423 [11:32:10<1:44:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13394/15423 [11:32:10<1:44:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13395/15423 [11:32:11<1:44:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13395/15423 [11:32:11<1:44:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13396/15423 [11:32:14<1:44:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13396/15423 [11:32:14<1:44:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13397/15423 [11:32:18<1:44:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13397/15423 [11:32:18<1:44:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13398/15423 [11:32:21<1:44:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13398/15423 [11:32:21<1:44:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13399/15423 [11:32:22<1:44:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13399/15423 [11:32:22<1:44:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13400/15423 [11:32:25<1:44:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13400/15423 [11:32:25<1:44:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13401/15423 [11:32:29<1:44:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13401/15423 [11:32:29<1:44:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13402/15423 [11:32:32<1:44:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13402/15423 [11:32:32<1:44:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13403/15423 [11:32:33<1:44:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13403/15423 [11:32:33<1:44:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13404/15423 [11:32:35<1:44:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13404/15423 [11:32:35<1:44:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13405/15423 [11:32:35<1:44:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13405/15423 [11:32:35<1:44:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13406/15423 [11:32:39<1:44:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13406/15423 [11:32:39<1:44:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13407/15423 [11:32:44<1:44:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13407/15423 [11:32:44<1:44:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13408/15423 [11:33:05<1:44:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13408/15423 [11:33:05<1:44:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13409/15423 [11:33:06<1:44:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13409/15423 [11:33:06<1:44:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13410/15423 [11:33:08<1:44:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13410/15423 [11:33:08<1:44:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13411/15423 [11:33:13<1:44:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13411/15423 [11:33:13<1:44:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13412/15423 [11:33:14<1:43:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13412/15423 [11:33:14<1:43:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13413/15423 [11:33:16<1:43:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13413/15423 [11:33:16<1:43:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13414/15423 [11:33:18<1:43:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13414/15423 [11:33:18<1:43:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13415/15423 [11:33:23<1:43:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13415/15423 [11:33:23<1:43:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13416/15423 [11:33:25<1:43:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13416/15423 [11:33:25<1:43:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13417/15423 [11:33:25<1:43:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13417/15423 [11:33:25<1:43:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13418/15423 [11:33:28<1:43:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13418/15423 [11:33:28<1:43:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13419/15423 [11:33:31<1:43:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13419/15423 [11:33:31<1:43:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13420/15423 [11:33:34<1:43:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13420/15423 [11:33:34<1:43:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13421/15423 [11:33:37<1:43:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13421/15423 [11:33:37<1:43:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13422/15423 [11:33:38<1:43:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13422/15423 [11:33:38<1:43:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13423/15423 [11:33:41<1:43:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13423/15423 [11:33:41<1:43:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13424/15423 [11:33:42<1:43:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13424/15423 [11:33:42<1:43:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13425/15423 [11:33:45<1:43:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13425/15423 [11:33:45<1:43:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13426/15423 [11:33:46<1:43:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13426/15423 [11:33:46<1:43:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13427/15423 [11:33:48<1:43:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13427/15423 [11:33:48<1:43:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13428/15423 [11:33:50<1:43:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13428/15423 [11:33:50<1:43:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13429/15423 [11:33:54<1:43:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13429/15423 [11:33:54<1:43:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13430/15423 [11:33:56<1:42:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13430/15423 [11:33:56<1:42:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13431/15423 [11:33:56<1:42:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13431/15423 [11:33:56<1:42:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13432/15423 [11:34:00<1:42:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13432/15423 [11:34:00<1:42:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13433/15423 [11:34:04<1:42:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13433/15423 [11:34:04<1:42:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13434/15423 [11:34:06<1:42:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13434/15423 [11:34:06<1:42:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13435/15423 [11:34:11<1:42:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13435/15423 [11:34:11<1:42:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13436/15423 [11:34:11<1:42:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13436/15423 [11:34:11<1:42:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13437/15423 [11:34:16<1:42:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13437/15423 [11:34:16<1:42:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13438/15423 [11:34:18<1:42:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13438/15423 [11:34:18<1:42:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13439/15423 [11:34:21<1:42:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13439/15423 [11:34:21<1:42:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13440/15423 [11:34:44<1:42:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13440/15423 [11:34:44<1:42:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13441/15423 [11:34:48<1:42:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13441/15423 [11:34:48<1:42:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13442/15423 [11:34:50<1:42:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13442/15423 [11:34:50<1:42:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13443/15423 [11:34:52<1:42:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13443/15423 [11:34:52<1:42:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13444/15423 [11:34:53<1:42:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13444/15423 [11:34:53<1:42:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13445/15423 [11:34:55<1:42:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13445/15423 [11:34:55<1:42:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13446/15423 [11:34:58<1:42:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13446/15423 [11:34:58<1:42:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13447/15423 [11:35:01<1:42:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13447/15423 [11:35:01<1:42:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13448/15423 [11:35:02<1:42:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13448/15423 [11:35:02<1:42:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13449/15423 [11:35:06<1:42:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13449/15423 [11:35:06<1:42:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13450/15423 [11:35:07<1:41:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13450/15423 [11:35:07<1:41:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13451/15423 [11:35:12<1:41:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13451/15423 [11:35:12<1:41:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13452/15423 [11:35:15<1:41:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13452/15423 [11:35:15<1:41:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13453/15423 [11:35:19<1:41:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13453/15423 [11:35:19<1:41:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13454/15423 [11:35:22<1:41:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13454/15423 [11:35:22<1:41:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13455/15423 [11:35:22<1:41:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13455/15423 [11:35:22<1:41:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13456/15423 [11:35:24<1:41:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13456/15423 [11:35:24<1:41:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13457/15423 [11:35:26<1:41:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13457/15423 [11:35:26<1:41:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13458/15423 [11:35:30<1:41:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13458/15423 [11:35:30<1:41:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13459/15423 [11:35:34<1:41:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13459/15423 [11:35:34<1:41:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13460/15423 [11:35:36<1:41:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13460/15423 [11:35:36<1:41:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13461/15423 [11:35:40<1:41:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13461/15423 [11:35:40<1:41:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13462/15423 [11:35:42<1:41:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13462/15423 [11:35:42<1:41:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13463/15423 [11:35:46<1:41:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13463/15423 [11:35:46<1:41:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13464/15423 [11:35:47<1:41:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13464/15423 [11:35:47<1:41:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13465/15423 [11:35:49<1:41:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13465/15423 [11:35:49<1:41:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13466/15423 [11:35:49<1:41:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13466/15423 [11:35:49<1:41:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13467/15423 [11:35:53<1:41:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13467/15423 [11:35:53<1:41:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13468/15423 [11:35:56<1:41:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13468/15423 [11:35:56<1:41:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13469/15423 [11:35:58<1:40:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13469/15423 [11:35:58<1:40:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13470/15423 [11:35:59<1:40:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13470/15423 [11:35:59<1:40:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13471/15423 [11:36:01<1:40:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13471/15423 [11:36:01<1:40:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13472/15423 [11:36:18<1:40:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13472/15423 [11:36:18<1:40:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13473/15423 [11:36:20<1:40:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13473/15423 [11:36:20<1:40:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13474/15423 [11:36:23<1:40:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13474/15423 [11:36:23<1:40:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13475/15423 [11:36:25<1:40:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13475/15423 [11:36:25<1:40:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13476/15423 [11:36:28<1:40:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13476/15423 [11:36:28<1:40:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13477/15423 [11:36:29<1:40:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13477/15423 [11:36:29<1:40:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13478/15423 [11:36:32<1:40:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13478/15423 [11:36:32<1:40:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13479/15423 [11:36:34<1:40:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13479/15423 [11:36:34<1:40:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13480/15423 [11:36:38<1:40:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13480/15423 [11:36:38<1:40:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13481/15423 [11:36:41<1:40:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13481/15423 [11:36:41<1:40:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13482/15423 [11:36:44<1:40:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13482/15423 [11:36:44<1:40:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13483/15423 [11:36:46<1:40:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13483/15423 [11:36:46<1:40:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13484/15423 [11:36:49<1:40:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13484/15423 [11:36:49<1:40:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13485/15423 [11:36:53<1:40:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13485/15423 [11:36:53<1:40:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13486/15423 [11:36:54<1:40:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13486/15423 [11:36:54<1:40:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13487/15423 [11:36:58<1:40:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13487/15423 [11:36:58<1:40:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13488/15423 [11:36:59<1:39:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13488/15423 [11:36:59<1:39:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13489/15423 [11:37:00<1:39:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13489/15423 [11:37:00<1:39:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13490/15423 [11:37:02<1:39:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13490/15423 [11:37:02<1:39:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13491/15423 [11:37:03<1:39:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13491/15423 [11:37:03<1:39:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13492/15423 [11:37:07<1:39:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13492/15423 [11:37:07<1:39:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13493/15423 [11:37:09<1:39:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13493/15423 [11:37:09<1:39:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13494/15423 [11:37:12<1:39:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13494/15423 [11:37:12<1:39:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  87%|▊| 13495/15423 [11:37:14<1:39:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  87%|▊| 13495/15423 [11:37:14<1:39:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13496/15423 [11:37:14<1:39:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13496/15423 [11:37:14<1:39:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13497/15423 [11:37:15<1:39:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13497/15423 [11:37:15<1:39:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13498/15423 [11:37:19<1:39:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13498/15423 [11:37:19<1:39:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13499/15423 [11:37:21<1:39:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13499/15423 [11:37:21<1:39:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13500/15423 [11:37:24<1:39:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13500/15423 [11:37:24<1:39:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13501/15423 [11:37:29<1:39:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13501/15423 [11:37:29<1:39:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13502/15423 [11:37:31<1:39:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13502/15423 [11:37:31<1:39:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13503/15423 [11:37:36<1:39:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13503/15423 [11:37:36<1:39:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13504/15423 [11:37:59<1:39:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13504/15423 [11:37:59<1:39:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13505/15423 [11:38:00<1:39:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13505/15423 [11:38:00<1:39:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13506/15423 [11:38:04<1:39:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13506/15423 [11:38:04<1:39:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13507/15423 [11:38:06<1:39:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13507/15423 [11:38:06<1:39:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13508/15423 [11:38:08<1:38:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13508/15423 [11:38:08<1:38:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13509/15423 [11:38:12<1:38:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13509/15423 [11:38:12<1:38:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13510/15423 [11:38:13<1:38:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13510/15423 [11:38:13<1:38:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13511/15423 [11:38:18<1:38:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13511/15423 [11:38:18<1:38:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13512/15423 [11:38:19<1:38:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13512/15423 [11:38:19<1:38:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13513/15423 [11:38:22<1:38:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13513/15423 [11:38:22<1:38:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13514/15423 [11:38:24<1:38:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13514/15423 [11:38:24<1:38:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13515/15423 [11:38:25<1:38:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13515/15423 [11:38:25<1:38:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13516/15423 [11:38:27<1:38:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13516/15423 [11:38:27<1:38:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13517/15423 [11:38:30<1:38:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13517/15423 [11:38:30<1:38:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13518/15423 [11:38:33<1:38:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13518/15423 [11:38:33<1:38:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13519/15423 [11:38:36<1:38:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13519/15423 [11:38:36<1:38:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13520/15423 [11:38:39<1:38:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13520/15423 [11:38:39<1:38:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13521/15423 [11:38:42<1:38:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13521/15423 [11:38:42<1:38:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13522/15423 [11:38:44<1:38:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13522/15423 [11:38:44<1:38:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13523/15423 [11:38:48<1:38:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13523/15423 [11:38:48<1:38:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13524/15423 [11:38:51<1:38:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13524/15423 [11:38:51<1:38:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13525/15423 [11:38:56<1:38:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13525/15423 [11:38:56<1:38:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13526/15423 [11:39:00<1:38:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13526/15423 [11:39:00<1:38:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13527/15423 [11:39:04<1:37:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13527/15423 [11:39:04<1:37:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13528/15423 [11:39:07<1:37:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13528/15423 [11:39:07<1:37:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13529/15423 [11:39:08<1:37:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13529/15423 [11:39:08<1:37:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13530/15423 [11:39:10<1:37:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13530/15423 [11:39:10<1:37:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13531/15423 [11:39:10<1:37:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13531/15423 [11:39:10<1:37:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13532/15423 [11:39:11<1:37:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13532/15423 [11:39:11<1:37:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13533/15423 [11:39:14<1:37:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13533/15423 [11:39:14<1:37:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13534/15423 [11:39:18<1:37:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13534/15423 [11:39:18<1:37:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13535/15423 [11:39:22<1:37:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13535/15423 [11:39:22<1:37:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13536/15423 [11:39:38<1:37:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13536/15423 [11:39:38<1:37:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13537/15423 [11:39:41<1:37:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13537/15423 [11:39:41<1:37:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13538/15423 [11:39:44<1:37:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13538/15423 [11:39:44<1:37:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13539/15423 [11:39:45<1:37:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13539/15423 [11:39:45<1:37:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13540/15423 [11:39:48<1:37:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13540/15423 [11:39:48<1:37:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13541/15423 [11:39:50<1:37:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13541/15423 [11:39:50<1:37:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13542/15423 [11:39:52<1:37:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13542/15423 [11:39:52<1:37:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13543/15423 [11:39:55<1:37:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13543/15423 [11:39:55<1:37:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13544/15423 [11:39:59<1:37:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13544/15423 [11:39:59<1:37:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13545/15423 [11:40:03<1:37:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13545/15423 [11:40:03<1:37:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13546/15423 [11:40:06<1:37:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13546/15423 [11:40:06<1:37:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13547/15423 [11:40:07<1:36:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13547/15423 [11:40:07<1:36:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13548/15423 [11:40:11<1:36:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13548/15423 [11:40:11<1:36:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13549/15423 [11:40:15<1:36:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13549/15423 [11:40:15<1:36:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13550/15423 [11:40:18<1:36:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13550/15423 [11:40:18<1:36:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13551/15423 [11:40:18<1:36:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13551/15423 [11:40:18<1:36:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13552/15423 [11:40:23<1:36:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13552/15423 [11:40:23<1:36:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13553/15423 [11:40:26<1:36:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13553/15423 [11:40:26<1:36:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13554/15423 [11:40:30<1:36:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13554/15423 [11:40:30<1:36:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13555/15423 [11:40:34<1:36:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13555/15423 [11:40:34<1:36:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13556/15423 [11:40:35<1:36:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13556/15423 [11:40:35<1:36:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13557/15423 [11:40:36<1:36:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13557/15423 [11:40:36<1:36:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13558/15423 [11:40:39<1:36:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13558/15423 [11:40:39<1:36:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13559/15423 [11:40:41<1:36:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13559/15423 [11:40:41<1:36:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13560/15423 [11:40:42<1:36:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13560/15423 [11:40:42<1:36:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13561/15423 [11:40:47<1:36:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13561/15423 [11:40:47<1:36:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13562/15423 [11:40:48<1:36:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13562/15423 [11:40:48<1:36:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13563/15423 [11:40:51<1:36:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13563/15423 [11:40:51<1:36:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13564/15423 [11:40:52<1:36:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13564/15423 [11:40:52<1:36:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13565/15423 [11:40:55<1:36:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13565/15423 [11:40:55<1:36:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13566/15423 [11:40:59<1:35:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13566/15423 [11:40:59<1:35:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13567/15423 [11:41:01<1:35:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13567/15423 [11:41:01<1:35:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13568/15423 [11:41:17<1:35:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13568/15423 [11:41:17<1:35:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13569/15423 [11:41:19<1:35:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13569/15423 [11:41:19<1:35:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13570/15423 [11:41:22<1:35:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13570/15423 [11:41:22<1:35:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13571/15423 [11:41:23<1:35:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13571/15423 [11:41:23<1:35:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13572/15423 [11:41:26<1:35:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13572/15423 [11:41:26<1:35:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13573/15423 [11:41:30<1:35:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13573/15423 [11:41:30<1:35:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13574/15423 [11:41:32<1:35:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13574/15423 [11:41:32<1:35:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13575/15423 [11:41:36<1:35:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13575/15423 [11:41:36<1:35:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13576/15423 [11:41:38<1:35:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13576/15423 [11:41:38<1:35:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13577/15423 [11:41:40<1:35:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13577/15423 [11:41:40<1:35:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13578/15423 [11:41:41<1:35:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13578/15423 [11:41:41<1:35:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13579/15423 [11:41:43<1:35:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13579/15423 [11:41:43<1:35:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13580/15423 [11:41:47<1:35:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13580/15423 [11:41:47<1:35:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13581/15423 [11:41:50<1:35:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13581/15423 [11:41:50<1:35:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13582/15423 [11:41:52<1:35:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13582/15423 [11:41:52<1:35:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13583/15423 [11:41:52<1:35:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13583/15423 [11:41:52<1:35:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13584/15423 [11:41:55<1:35:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13584/15423 [11:41:55<1:35:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13585/15423 [11:41:56<1:34:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13585/15423 [11:41:56<1:34:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13586/15423 [11:42:00<1:34:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13586/15423 [11:42:00<1:34:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13587/15423 [11:42:03<1:34:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13587/15423 [11:42:03<1:34:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13588/15423 [11:42:05<1:34:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13588/15423 [11:42:05<1:34:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13589/15423 [11:42:08<1:34:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13589/15423 [11:42:08<1:34:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13590/15423 [11:42:11<1:34:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13590/15423 [11:42:11<1:34:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13591/15423 [11:42:12<1:34:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13591/15423 [11:42:12<1:34:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13592/15423 [11:42:15<1:34:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13592/15423 [11:42:15<1:34:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13593/15423 [11:42:16<1:34:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13593/15423 [11:42:16<1:34:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13594/15423 [11:42:18<1:34:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13594/15423 [11:42:18<1:34:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13595/15423 [11:42:19<1:34:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13595/15423 [11:42:19<1:34:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13596/15423 [11:42:21<1:34:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13596/15423 [11:42:21<1:34:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13597/15423 [11:42:25<1:34:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13597/15423 [11:42:25<1:34:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13598/15423 [11:42:27<1:34:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13598/15423 [11:42:27<1:34:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13599/15423 [11:42:31<1:34:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13599/15423 [11:42:31<1:34:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13600/15423 [11:42:58<1:34:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13600/15423 [11:42:58<1:34:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13601/15423 [11:43:24<1:34:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13601/15423 [11:43:24<1:34:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13602/15423 [11:43:28<1:34:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13602/15423 [11:43:28<1:34:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13603/15423 [11:43:31<1:34:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13603/15423 [11:43:31<1:34:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13604/15423 [11:43:35<1:34:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13604/15423 [11:43:35<1:34:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13605/15423 [11:43:36<1:34:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13605/15423 [11:43:36<1:34:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13606/15423 [11:43:38<1:33:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13606/15423 [11:43:38<1:33:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13607/15423 [11:43:43<1:33:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13607/15423 [11:43:43<1:33:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13608/15423 [11:43:43<1:33:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13608/15423 [11:43:43<1:33:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13609/15423 [11:43:47<1:33:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13609/15423 [11:43:47<1:33:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13610/15423 [11:43:48<1:33:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13610/15423 [11:43:48<1:33:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13611/15423 [11:43:52<1:33:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13611/15423 [11:43:52<1:33:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13612/15423 [11:43:54<1:33:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13612/15423 [11:43:54<1:33:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13613/15423 [11:43:58<1:33:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13613/15423 [11:43:58<1:33:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13614/15423 [11:44:01<1:33:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13614/15423 [11:44:01<1:33:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13615/15423 [11:44:04<1:33:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13615/15423 [11:44:04<1:33:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13616/15423 [11:44:05<1:33:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13616/15423 [11:44:05<1:33:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13617/15423 [11:44:07<1:33:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13617/15423 [11:44:07<1:33:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13618/15423 [11:44:10<1:33:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13618/15423 [11:44:10<1:33:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13619/15423 [11:44:12<1:33:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13619/15423 [11:44:12<1:33:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13620/15423 [11:44:15<1:33:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13620/15423 [11:44:15<1:33:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13621/15423 [11:44:16<1:33:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13621/15423 [11:44:16<1:33:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13622/15423 [11:44:19<1:33:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13622/15423 [11:44:19<1:33:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13623/15423 [11:44:22<1:33:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13623/15423 [11:44:22<1:33:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13624/15423 [11:44:25<1:33:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13624/15423 [11:44:25<1:33:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13625/15423 [11:44:29<1:32:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13625/15423 [11:44:29<1:32:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13626/15423 [11:44:33<1:32:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13626/15423 [11:44:33<1:32:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13627/15423 [11:44:35<1:32:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13627/15423 [11:44:35<1:32:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13628/15423 [11:44:38<1:32:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13628/15423 [11:44:38<1:32:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13629/15423 [11:44:41<1:32:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13629/15423 [11:44:41<1:32:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13630/15423 [11:44:45<1:32:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13630/15423 [11:44:45<1:32:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13631/15423 [11:44:48<1:32:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13631/15423 [11:44:48<1:32:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13632/15423 [11:44:57<1:32:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13632/15423 [11:44:57<1:32:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13633/15423 [11:45:00<1:32:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13633/15423 [11:45:00<1:32:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13634/15423 [11:45:01<1:32:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13634/15423 [11:45:01<1:32:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13635/15423 [11:45:05<1:32:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13635/15423 [11:45:05<1:32:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13636/15423 [11:45:06<1:32:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13636/15423 [11:45:06<1:32:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13637/15423 [11:45:08<1:32:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13637/15423 [11:45:08<1:32:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13638/15423 [11:45:10<1:32:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13638/15423 [11:45:10<1:32:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13639/15423 [11:45:11<1:32:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13639/15423 [11:45:11<1:32:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13640/15423 [11:45:13<1:32:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13640/15423 [11:45:13<1:32:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13641/15423 [11:45:14<1:32:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13641/15423 [11:45:14<1:32:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13642/15423 [11:45:17<1:32:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13642/15423 [11:45:17<1:32:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13643/15423 [11:45:18<1:32:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13643/15423 [11:45:18<1:32:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13644/15423 [11:45:21<1:31:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13644/15423 [11:45:21<1:31:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13645/15423 [11:45:25<1:31:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13645/15423 [11:45:25<1:31:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13646/15423 [11:45:26<1:31:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13646/15423 [11:45:26<1:31:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13647/15423 [11:45:28<1:31:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13647/15423 [11:45:28<1:31:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13648/15423 [11:45:30<1:31:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13648/15423 [11:45:30<1:31:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  88%|▉| 13649/15423 [11:45:33<1:31:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  88%|▉| 13649/15423 [11:45:33<1:31:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13650/15423 [11:45:35<1:31:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13650/15423 [11:45:35<1:31:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13651/15423 [11:45:37<1:31:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13651/15423 [11:45:37<1:31:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13652/15423 [11:45:39<1:31:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13652/15423 [11:45:39<1:31:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13653/15423 [11:45:41<1:31:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13653/15423 [11:45:41<1:31:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13654/15423 [11:45:41<1:31:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13654/15423 [11:45:41<1:31:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13655/15423 [11:45:43<1:31:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13655/15423 [11:45:44<1:31:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13656/15423 [11:45:47<1:31:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13656/15423 [11:45:47<1:31:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13657/15423 [11:45:48<1:31:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13657/15423 [11:45:48<1:31:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13658/15423 [11:45:51<1:31:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13658/15423 [11:45:51<1:31:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13659/15423 [11:45:55<1:31:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13659/15423 [11:45:55<1:31:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13660/15423 [11:45:56<1:31:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13660/15423 [11:45:56<1:31:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13661/15423 [11:46:00<1:31:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13661/15423 [11:46:00<1:31:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13662/15423 [11:46:03<1:31:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13662/15423 [11:46:03<1:31:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13663/15423 [11:46:05<1:30:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13663/15423 [11:46:05<1:30:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13664/15423 [11:46:39<1:30:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13664/15423 [11:46:39<1:30:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13665/15423 [11:46:41<1:30:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13665/15423 [11:46:41<1:30:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13666/15423 [11:46:43<1:30:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13666/15423 [11:46:43<1:30:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13667/15423 [11:46:45<1:30:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13667/15423 [11:46:45<1:30:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13668/15423 [11:46:48<1:30:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13668/15423 [11:46:48<1:30:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13669/15423 [11:46:51<1:30:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13669/15423 [11:46:51<1:30:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13670/15423 [11:46:52<1:30:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13670/15423 [11:46:52<1:30:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13671/15423 [11:46:56<1:30:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13671/15423 [11:46:56<1:30:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13672/15423 [11:47:00<1:30:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13672/15423 [11:47:00<1:30:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13673/15423 [11:47:04<1:30:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13673/15423 [11:47:04<1:30:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13674/15423 [11:47:06<1:30:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13674/15423 [11:47:06<1:30:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13675/15423 [11:47:10<1:30:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13675/15423 [11:47:10<1:30:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13676/15423 [11:47:14<1:30:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13676/15423 [11:47:14<1:30:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13677/15423 [11:47:15<1:30:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13677/15423 [11:47:15<1:30:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13678/15423 [11:47:18<1:30:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13678/15423 [11:47:18<1:30:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13679/15423 [11:47:20<1:30:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13679/15423 [11:47:20<1:30:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13680/15423 [11:47:24<1:30:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13680/15423 [11:47:24<1:30:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13681/15423 [11:47:26<1:30:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13681/15423 [11:47:26<1:30:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13682/15423 [11:47:28<1:30:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13682/15423 [11:47:28<1:30:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13683/15423 [11:47:32<1:29:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13683/15423 [11:47:32<1:29:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13684/15423 [11:47:33<1:29:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13684/15423 [11:47:33<1:29:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13685/15423 [11:47:36<1:29:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13685/15423 [11:47:36<1:29:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13686/15423 [11:47:38<1:29:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13686/15423 [11:47:38<1:29:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13687/15423 [11:47:39<1:29:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13687/15423 [11:47:39<1:29:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13688/15423 [11:47:44<1:29:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13688/15423 [11:47:44<1:29:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13689/15423 [11:47:46<1:29:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13689/15423 [11:47:46<1:29:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13690/15423 [11:47:48<1:29:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13690/15423 [11:47:48<1:29:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13691/15423 [11:47:50<1:29:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13691/15423 [11:47:50<1:29:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13692/15423 [11:47:52<1:29:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13692/15423 [11:47:52<1:29:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13693/15423 [11:47:53<1:29:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13693/15423 [11:47:53<1:29:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13694/15423 [11:47:56<1:29:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13694/15423 [11:47:56<1:29:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13695/15423 [11:47:57<1:29:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13695/15423 [11:47:57<1:29:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13696/15423 [11:48:22<1:29:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13696/15423 [11:48:22<1:29:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13697/15423 [11:48:24<1:29:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13697/15423 [11:48:24<1:29:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13698/15423 [11:48:29<1:29:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13698/15423 [11:48:29<1:29:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13699/15423 [11:48:33<1:29:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13699/15423 [11:48:33<1:29:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13700/15423 [11:48:37<1:29:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13700/15423 [11:48:37<1:29:07,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13701/15423 [11:48:42<1:29:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13701/15423 [11:48:42<1:29:04,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13702/15423 [11:48:43<1:29:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13702/15423 [11:48:43<1:29:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13703/15423 [11:48:44<1:28:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13703/15423 [11:48:44<1:28:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13704/15423 [11:48:46<1:28:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13704/15423 [11:48:46<1:28:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13705/15423 [11:48:47<1:28:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13705/15423 [11:48:47<1:28:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13706/15423 [11:48:48<1:28:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13706/15423 [11:48:48<1:28:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13707/15423 [11:48:51<1:28:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13707/15423 [11:48:51<1:28:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13708/15423 [11:48:54<1:28:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13708/15423 [11:48:54<1:28:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13709/15423 [11:48:56<1:28:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13709/15423 [11:48:56<1:28:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13710/15423 [11:48:59<1:28:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13710/15423 [11:48:59<1:28:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13711/15423 [11:49:00<1:28:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13711/15423 [11:49:00<1:28:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13712/15423 [11:49:04<1:28:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13712/15423 [11:49:04<1:28:28,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13713/15423 [11:49:05<1:28:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13713/15423 [11:49:05<1:28:25,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13714/15423 [11:49:07<1:28:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13714/15423 [11:49:07<1:28:22,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13715/15423 [11:49:12<1:28:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13715/15423 [11:49:12<1:28:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13716/15423 [11:49:16<1:28:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13716/15423 [11:49:16<1:28:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13717/15423 [11:49:17<1:28:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13717/15423 [11:49:17<1:28:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13718/15423 [11:49:21<1:28:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13718/15423 [11:49:21<1:28:09,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13719/15423 [11:49:22<1:28:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13719/15423 [11:49:22<1:28:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13720/15423 [11:49:24<1:28:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13720/15423 [11:49:24<1:28:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13721/15423 [11:49:25<1:27:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13721/15423 [11:49:25<1:27:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13722/15423 [11:49:27<1:27:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13722/15423 [11:49:27<1:27:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13723/15423 [11:49:29<1:27:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13723/15423 [11:49:29<1:27:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13724/15423 [11:49:31<1:27:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13724/15423 [11:49:31<1:27:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13725/15423 [11:49:35<1:27:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13725/15423 [11:49:35<1:27:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13726/15423 [11:49:36<1:27:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13726/15423 [11:49:36<1:27:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13727/15423 [11:49:37<1:27:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13727/15423 [11:49:37<1:27:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13728/15423 [11:49:57<1:27:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13728/15423 [11:49:57<1:27:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13729/15423 [11:50:00<1:27:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13729/15423 [11:50:00<1:27:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13730/15423 [11:50:04<1:27:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13730/15423 [11:50:04<1:27:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13731/15423 [11:50:07<1:27:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13731/15423 [11:50:07<1:27:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13732/15423 [11:50:08<1:27:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13732/15423 [11:50:08<1:27:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13733/15423 [11:50:11<1:27:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13733/15423 [11:50:11<1:27:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13734/15423 [11:50:13<1:27:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13734/15423 [11:50:13<1:27:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13735/15423 [11:50:17<1:27:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13735/15423 [11:50:17<1:27:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13736/15423 [11:50:18<1:27:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13736/15423 [11:50:18<1:27:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13737/15423 [11:50:22<1:27:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13737/15423 [11:50:22<1:27:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13738/15423 [11:50:26<1:27:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13738/15423 [11:50:26<1:27:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13739/15423 [11:50:29<1:27:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13739/15423 [11:50:29<1:27:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13740/15423 [11:50:31<1:27:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13740/15423 [11:50:31<1:27:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13741/15423 [11:50:32<1:26:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13741/15423 [11:50:32<1:26:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13742/15423 [11:50:34<1:26:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13742/15423 [11:50:34<1:26:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13743/15423 [11:50:35<1:26:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13743/15423 [11:50:35<1:26:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13744/15423 [11:50:37<1:26:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13744/15423 [11:50:37<1:26:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13745/15423 [11:50:38<1:26:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13745/15423 [11:50:38<1:26:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13746/15423 [11:50:42<1:26:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13746/15423 [11:50:42<1:26:42,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13747/15423 [11:50:44<1:26:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13747/15423 [11:50:44<1:26:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13748/15423 [11:50:45<1:26:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13748/15423 [11:50:45<1:26:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13749/15423 [11:50:47<1:26:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13749/15423 [11:50:47<1:26:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13750/15423 [11:50:51<1:26:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13750/15423 [11:50:51<1:26:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13751/15423 [11:50:52<1:26:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13751/15423 [11:50:52<1:26:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13752/15423 [11:50:55<1:26:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13752/15423 [11:50:55<1:26:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13753/15423 [11:50:56<1:26:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13753/15423 [11:50:56<1:26:19,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13754/15423 [11:50:58<1:26:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13754/15423 [11:50:58<1:26:16,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13755/15423 [11:50:59<1:26:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13755/15423 [11:50:59<1:26:13,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13756/15423 [11:51:03<1:26:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13756/15423 [11:51:03<1:26:10,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13757/15423 [11:51:05<1:26:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13757/15423 [11:51:05<1:26:06,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13758/15423 [11:51:08<1:26:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13758/15423 [11:51:08<1:26:03,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13759/15423 [11:51:10<1:26:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13759/15423 [11:51:10<1:26:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13760/15423 [11:51:40<1:26:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13760/15423 [11:51:40<1:26:00,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13761/15423 [11:51:41<1:25:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13761/15423 [11:51:41<1:25:57,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13762/15423 [11:51:43<1:25:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13762/15423 [11:51:43<1:25:54,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13763/15423 [11:51:48<1:25:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13763/15423 [11:51:48<1:25:51,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13764/15423 [11:51:51<1:25:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13764/15423 [11:51:51<1:25:48,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13765/15423 [11:51:54<1:25:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13765/15423 [11:51:54<1:25:45,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13766/15423 [11:51:58<1:25:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13766/15423 [11:51:58<1:25:41,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13767/15423 [11:52:01<1:25:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13767/15423 [11:52:01<1:25:38,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13768/15423 [11:52:03<1:25:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13768/15423 [11:52:03<1:25:35,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13769/15423 [11:52:07<1:25:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13769/15423 [11:52:07<1:25:32,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13770/15423 [11:52:09<1:25:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13770/15423 [11:52:09<1:25:29,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13771/15423 [11:52:13<1:25:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13771/15423 [11:52:13<1:25:26,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13772/15423 [11:52:18<1:25:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13772/15423 [11:52:18<1:25:23,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13773/15423 [11:52:22<1:25:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13773/15423 [11:52:22<1:25:20,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13774/15423 [11:52:26<1:25:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13774/15423 [11:52:26<1:25:17,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13775/15423 [11:52:30<1:25:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13775/15423 [11:52:30<1:25:14,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13776/15423 [11:52:32<1:25:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13776/15423 [11:52:32<1:25:11,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13777/15423 [11:52:35<1:25:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13777/15423 [11:52:35<1:25:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13778/15423 [11:52:39<1:25:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13778/15423 [11:52:39<1:25:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13779/15423 [11:52:40<1:25:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13779/15423 [11:52:40<1:25:01,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13780/15423 [11:52:42<1:24:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13780/15423 [11:52:42<1:24:58,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13781/15423 [11:52:44<1:24:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13781/15423 [11:52:44<1:24:55,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13782/15423 [11:52:47<1:24:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13782/15423 [11:52:47<1:24:52,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13783/15423 [11:52:49<1:24:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13783/15423 [11:52:49<1:24:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13784/15423 [11:52:53<1:24:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13784/15423 [11:52:53<1:24:46,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13785/15423 [11:52:57<1:24:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13785/15423 [11:52:57<1:24:43,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13786/15423 [11:52:58<1:24:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13786/15423 [11:52:58<1:24:39,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13787/15423 [11:53:01<1:24:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13787/15423 [11:53:01<1:24:36,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13788/15423 [11:53:06<1:24:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13788/15423 [11:53:06<1:24:33,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13789/15423 [11:53:08<1:24:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13789/15423 [11:53:08<1:24:30,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13790/15423 [11:53:09<1:24:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13790/15423 [11:53:09<1:24:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13791/15423 [11:53:14<1:24:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13791/15423 [11:53:14<1:24:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13792/15423 [11:53:21<1:24:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13792/15423 [11:53:21<1:24:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13793/15423 [11:53:23<1:24:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13793/15423 [11:53:23<1:24:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13794/15423 [11:53:25<1:24:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13794/15423 [11:53:25<1:24:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13795/15423 [11:53:29<1:24:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13795/15423 [11:53:29<1:24:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13796/15423 [11:53:31<1:24:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13796/15423 [11:53:31<1:24:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13797/15423 [11:53:33<1:24:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13797/15423 [11:53:33<1:24:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13798/15423 [11:53:38<1:24:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13798/15423 [11:53:38<1:24:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13799/15423 [11:53:41<1:23:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13799/15423 [11:53:41<1:23:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13800/15423 [11:53:45<1:23:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13800/15423 [11:53:45<1:23:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13801/15423 [11:53:46<1:23:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13801/15423 [11:53:46<1:23:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13802/15423 [11:53:49<1:23:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13802/15423 [11:53:49<1:23:50,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  89%|▉| 13803/15423 [11:53:54<1:23:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  89%|▉| 13803/15423 [11:53:54<1:23:47,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13804/15423 [11:53:56<1:23:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13804/15423 [11:53:56<1:23:44,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13805/15423 [11:53:58<1:23:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13805/15423 [11:53:58<1:23:40,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13806/15423 [11:54:00<1:23:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13806/15423 [11:54:00<1:23:37,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13807/15423 [11:54:01<1:23:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13807/15423 [11:54:01<1:23:34,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13808/15423 [11:54:03<1:23:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13808/15423 [11:54:03<1:23:31,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13809/15423 [11:54:05<1:23:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13809/15423 [11:54:05<1:23:27,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13810/15423 [11:54:07<1:23:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13810/15423 [11:54:07<1:23:24,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13811/15423 [11:54:11<1:23:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13811/15423 [11:54:11<1:23:21,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13812/15423 [11:54:15<1:23:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13812/15423 [11:54:15<1:23:18,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13813/15423 [11:54:18<1:23:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13813/15423 [11:54:18<1:23:15,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13814/15423 [11:54:20<1:23:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13814/15423 [11:54:20<1:23:12,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13815/15423 [11:54:21<1:23:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13815/15423 [11:54:21<1:23:08,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13816/15423 [11:54:24<1:23:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13816/15423 [11:54:24<1:23:05,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13817/15423 [11:54:26<1:23:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13817/15423 [11:54:26<1:23:02,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13818/15423 [11:54:28<1:22:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13818/15423 [11:54:28<1:22:59,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13819/15423 [11:54:31<1:22:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13819/15423 [11:54:31<1:22:56,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13820/15423 [11:54:34<1:22:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13820/15423 [11:54:34<1:22:53,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13821/15423 [11:54:35<1:22:49,  3.10s/it, v_num=ufwn, train/los"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13821/15423 [11:54:35<1:22:49,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2385 max words, 200 samples - at ../dataset/gen-word-2385-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13822/15423 [11:54:37<1:22:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13822/15423 [11:54:37<1:22:46,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3930 max words, 200 samples - at ../dataset/gen-word-3930-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13823/15423 [11:54:38<1:22:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13823/15423 [11:54:38<1:22:43,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3065 max words, 200 samples - at ../dataset/gen-word-3065-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13824/15423 [11:55:00<1:22:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13824/15423 [11:55:00<1:22:42,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2575 max words, 200 samples - at ../dataset/gen-word-2575-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13825/15423 [11:55:04<1:22:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13825/15423 [11:55:04<1:22:39,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3120 max words, 200 samples - at ../dataset/gen-word-3120-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13826/15423 [11:55:07<1:22:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13826/15423 [11:55:07<1:22:36,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2890 max words, 200 samples - at ../dataset/gen-word-2890-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13827/15423 [11:55:08<1:22:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13827/15423 [11:55:08<1:22:32,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2415 max words, 200 samples - at ../dataset/gen-word-2415-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13828/15423 [11:55:09<1:22:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13828/15423 [11:55:09<1:22:29,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3130 max words, 200 samples - at ../dataset/gen-word-3130-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13829/15423 [11:55:10<1:22:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13829/15423 [11:55:10<1:22:26,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2955 max words, 200 samples - at ../dataset/gen-word-2955-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13830/15423 [11:55:13<1:22:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13830/15423 [11:55:13<1:22:22,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3095 max words, 200 samples - at ../dataset/gen-word-3095-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13831/15423 [11:55:15<1:22:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13831/15423 [11:55:15<1:22:19,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3160 max words, 200 samples - at ../dataset/gen-word-3160-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13832/15423 [11:55:16<1:22:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13832/15423 [11:55:16<1:22:16,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2720 max words, 200 samples - at ../dataset/gen-word-2720-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13833/15423 [11:55:19<1:22:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13833/15423 [11:55:19<1:22:13,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2380 max words, 200 samples - at ../dataset/gen-word-2380-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13834/15423 [11:55:23<1:22:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13834/15423 [11:55:23<1:22:10,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2555 max words, 200 samples - at ../dataset/gen-word-2555-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13835/15423 [11:55:26<1:22:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13835/15423 [11:55:26<1:22:07,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2325 max words, 200 samples - at ../dataset/gen-word-2325-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13836/15423 [11:55:29<1:22:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13836/15423 [11:55:29<1:22:04,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3300 max words, 200 samples - at ../dataset/gen-word-3300-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13837/15423 [11:55:33<1:22:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13837/15423 [11:55:33<1:22:01,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3290 max words, 200 samples - at ../dataset/gen-word-3290-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13838/15423 [11:55:37<1:21:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13838/15423 [11:55:37<1:21:58,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2880 max words, 200 samples - at ../dataset/gen-word-2880-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13839/15423 [11:55:40<1:21:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13839/15423 [11:55:40<1:21:54,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2495 max words, 200 samples - at ../dataset/gen-word-2495-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13840/15423 [11:55:44<1:21:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13840/15423 [11:55:44<1:21:51,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2685 max words, 200 samples - at ../dataset/gen-word-2685-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13841/15423 [11:55:47<1:21:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13841/15423 [11:55:47<1:21:48,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3105 max words, 200 samples - at ../dataset/gen-word-3105-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13842/15423 [11:55:48<1:21:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13842/15423 [11:55:48<1:21:45,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3780 max words, 200 samples - at ../dataset/gen-word-3780-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13843/15423 [11:55:52<1:21:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13843/15423 [11:55:52<1:21:42,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2840 max words, 200 samples - at ../dataset/gen-word-2840-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13844/15423 [11:55:53<1:21:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13844/15423 [11:55:53<1:21:39,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3310 max words, 200 samples - at ../dataset/gen-word-3310-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13845/15423 [11:55:56<1:21:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13845/15423 [11:55:56<1:21:35,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3720 max words, 200 samples - at ../dataset/gen-word-3720-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13846/15423 [11:55:58<1:21:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13846/15423 [11:55:58<1:21:32,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2935 max words, 200 samples - at ../dataset/gen-word-2935-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13847/15423 [11:56:00<1:21:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13847/15423 [11:56:00<1:21:29,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3435 max words, 200 samples - at ../dataset/gen-word-3435-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13848/15423 [11:56:04<1:21:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13848/15423 [11:56:04<1:21:26,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2595 max words, 200 samples - at ../dataset/gen-word-2595-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13849/15423 [11:56:06<1:21:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13849/15423 [11:56:06<1:21:23,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3480 max words, 200 samples - at ../dataset/gen-word-3480-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13850/15423 [11:56:09<1:21:20,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3025 max words, 200 samples - at ../dataset/gen-word-3025-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13850/15423 [11:56:09<1:21:20,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3425 max words, 200 samples - at ../dataset/gen-word-3425-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13851/15423 [11:56:13<1:21:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13851/15423 [11:56:13<1:21:17,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3015 max words, 200 samples - at ../dataset/gen-word-3015-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13852/15423 [11:56:17<1:21:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13852/15423 [11:56:17<1:21:14,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3695 max words, 200 samples - at ../dataset/gen-word-3695-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13853/15423 [11:56:20<1:21:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13853/15423 [11:56:20<1:21:11,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3725 max words, 200 samples - at ../dataset/gen-word-3725-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13854/15423 [11:56:24<1:21:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13854/15423 [11:56:24<1:21:08,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3750 max words, 200 samples - at ../dataset/gen-word-3750-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13855/15423 [11:56:28<1:21:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13855/15423 [11:56:28<1:21:05,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3295 max words, 200 samples - at ../dataset/gen-word-3295-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13856/15423 [11:56:38<1:21:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13856/15423 [11:56:38<1:21:02,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3590 max words, 200 samples - at ../dataset/gen-word-3590-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13857/15423 [11:56:42<1:20:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13857/15423 [11:56:42<1:20:59,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3210 max words, 200 samples - at ../dataset/gen-word-3210-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13858/15423 [11:56:46<1:20:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13858/15423 [11:56:46<1:20:56,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3585 max words, 200 samples - at ../dataset/gen-word-3585-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13859/15423 [11:56:49<1:20:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13859/15423 [11:56:49<1:20:53,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3315 max words, 200 samples - at ../dataset/gen-word-3315-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13860/15423 [11:56:52<1:20:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13860/15423 [11:56:52<1:20:50,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2335 max words, 200 samples - at ../dataset/gen-word-2335-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13861/15423 [11:56:56<1:20:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13861/15423 [11:56:56<1:20:47,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2665 max words, 200 samples - at ../dataset/gen-word-2665-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13862/15423 [11:56:58<1:20:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13862/15423 [11:56:58<1:20:44,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3575 max words, 200 samples - at ../dataset/gen-word-3575-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13863/15423 [11:56:58<1:20:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13863/15423 [11:56:58<1:20:40,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3155 max words, 200 samples - at ../dataset/gen-word-3155-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13864/15423 [11:57:00<1:20:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13864/15423 [11:57:00<1:20:37,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3455 max words, 200 samples - at ../dataset/gen-word-3455-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13865/15423 [11:57:04<1:20:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13865/15423 [11:57:04<1:20:34,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3360 max words, 200 samples - at ../dataset/gen-word-3360-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13866/15423 [11:57:07<1:20:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13866/15423 [11:57:07<1:20:31,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2370 max words, 200 samples - at ../dataset/gen-word-2370-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13867/15423 [11:57:11<1:20:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13867/15423 [11:57:11<1:20:28,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2270 max words, 200 samples - at ../dataset/gen-word-2270-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13868/15423 [11:57:14<1:20:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13868/15423 [11:57:14<1:20:25,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3420 max words, 200 samples - at ../dataset/gen-word-3420-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13869/15423 [11:57:17<1:20:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13869/15423 [11:57:17<1:20:22,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2930 max words, 200 samples - at ../dataset/gen-word-2930-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13870/15423 [11:57:20<1:20:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13870/15423 [11:57:20<1:20:19,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2485 max words, 200 samples - at ../dataset/gen-word-2485-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13871/15423 [11:57:23<1:20:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13871/15423 [11:57:23<1:20:16,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3225 max words, 200 samples - at ../dataset/gen-word-3225-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13872/15423 [11:57:27<1:20:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13872/15423 [11:57:27<1:20:13,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3080 max words, 200 samples - at ../dataset/gen-word-3080-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13873/15423 [11:57:29<1:20:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13873/15423 [11:57:29<1:20:09,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 1650 max words, 200 samples - at ../dataset/gen-word-1650-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13874/15423 [11:57:33<1:20:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13874/15423 [11:57:33<1:20:06,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2110 max words, 200 samples - at ../dataset/gen-word-2110-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13875/15423 [11:57:34<1:20:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13875/15423 [11:57:34<1:20:03,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3200 max words, 200 samples - at ../dataset/gen-word-3200-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13876/15423 [11:57:39<1:20:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13876/15423 [11:57:39<1:20:00,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3410 max words, 200 samples - at ../dataset/gen-word-3410-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13877/15423 [11:57:42<1:19:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13877/15423 [11:57:42<1:19:57,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2645 max words, 200 samples - at ../dataset/gen-word-2645-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13878/15423 [11:57:44<1:19:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13878/15423 [11:57:44<1:19:54,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3730 max words, 200 samples - at ../dataset/gen-word-3730-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13879/15423 [11:57:47<1:19:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13879/15423 [11:57:47<1:19:51,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3510 max words, 200 samples - at ../dataset/gen-word-3510-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13880/15423 [11:57:50<1:19:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13880/15423 [11:57:50<1:19:48,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3345 max words, 200 samples - at ../dataset/gen-word-3345-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13881/15423 [11:57:53<1:19:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13881/15423 [11:57:53<1:19:44,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2715 max words, 200 samples - at ../dataset/gen-word-2715-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13882/15423 [11:57:55<1:19:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13882/15423 [11:57:55<1:19:41,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3565 max words, 200 samples - at ../dataset/gen-word-3565-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13883/15423 [11:58:00<1:19:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13883/15423 [11:58:00<1:19:38,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3680 max words, 200 samples - at ../dataset/gen-word-3680-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13884/15423 [11:58:03<1:19:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13884/15423 [11:58:03<1:19:35,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3545 max words, 200 samples - at ../dataset/gen-word-3545-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13885/15423 [11:58:05<1:19:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13885/15423 [11:58:05<1:19:32,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2725 max words, 200 samples - at ../dataset/gen-word-2725-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13886/15423 [11:58:08<1:19:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13886/15423 [11:58:08<1:19:29,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2375 max words, 200 samples - at ../dataset/gen-word-2375-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13887/15423 [11:58:10<1:19:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13887/15423 [11:58:10<1:19:26,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2970 max words, 200 samples - at ../dataset/gen-word-2970-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13888/15423 [11:58:19<1:19:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13888/15423 [11:58:19<1:19:23,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3795 max words, 200 samples - at ../dataset/gen-word-3795-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13889/15423 [11:58:21<1:19:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13889/15423 [11:58:21<1:19:20,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2870 max words, 200 samples - at ../dataset/gen-word-2870-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13890/15423 [11:58:26<1:19:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13890/15423 [11:58:26<1:19:17,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3370 max words, 200 samples - at ../dataset/gen-word-3370-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13891/15423 [11:58:26<1:19:14,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3495 max words, 200 samples - at ../dataset/gen-word-3495-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13891/15423 [11:58:26<1:19:14,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3045 max words, 200 samples - at ../dataset/gen-word-3045-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13892/15423 [11:58:30<1:19:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13892/15423 [11:58:30<1:19:11,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2065 max words, 200 samples - at ../dataset/gen-word-2065-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13893/15423 [11:58:31<1:19:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13893/15423 [11:58:31<1:19:07,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3440 max words, 200 samples - at ../dataset/gen-word-3440-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13894/15423 [11:58:36<1:19:04,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2815 max words, 200 samples - at ../dataset/gen-word-2815-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13894/15423 [11:58:36<1:19:04,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2220 max words, 200 samples - at ../dataset/gen-word-2220-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13895/15423 [11:58:37<1:19:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13895/15423 [11:58:37<1:19:01,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3485 max words, 200 samples - at ../dataset/gen-word-3485-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13896/15423 [11:58:38<1:18:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13896/15423 [11:58:38<1:18:58,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3540 max words, 200 samples - at ../dataset/gen-word-3540-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13897/15423 [11:58:43<1:18:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13897/15423 [11:58:43<1:18:55,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3320 max words, 200 samples - at ../dataset/gen-word-3320-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13898/15423 [11:58:44<1:18:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13898/15423 [11:58:44<1:18:51,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2215 max words, 200 samples - at ../dataset/gen-word-2215-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13899/15423 [11:58:45<1:18:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13899/15423 [11:58:45<1:18:48,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3600 max words, 200 samples - at ../dataset/gen-word-3600-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13900/15423 [11:58:49<1:18:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13900/15423 [11:58:49<1:18:45,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3625 max words, 200 samples - at ../dataset/gen-word-3625-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13901/15423 [11:58:50<1:18:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13901/15423 [11:58:50<1:18:42,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3700 max words, 200 samples - at ../dataset/gen-word-3700-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13902/15423 [11:58:54<1:18:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13902/15423 [11:58:54<1:18:39,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3535 max words, 200 samples - at ../dataset/gen-word-3535-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13903/15423 [11:58:55<1:18:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13903/15423 [11:58:55<1:18:35,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3340 max words, 200 samples - at ../dataset/gen-word-3340-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13904/15423 [11:58:59<1:18:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13904/15423 [11:58:59<1:18:32,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3460 max words, 200 samples - at ../dataset/gen-word-3460-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13905/15423 [11:59:01<1:18:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13905/15423 [11:59:01<1:18:29,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3800 max words, 200 samples - at ../dataset/gen-word-3800-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13906/15423 [11:59:04<1:18:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13906/15423 [11:59:04<1:18:26,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 4000 max words, 200 samples - at ../dataset/gen-word-4000-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13907/15423 [11:59:05<1:18:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13907/15423 [11:59:05<1:18:23,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3815 max words, 200 samples - at ../dataset/gen-word-3815-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13908/15423 [11:59:09<1:18:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13908/15423 [11:59:09<1:18:20,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3635 max words, 200 samples - at ../dataset/gen-word-3635-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13909/15423 [11:59:12<1:18:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13909/15423 [11:59:12<1:18:17,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2845 max words, 200 samples - at ../dataset/gen-word-2845-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13910/15423 [11:59:15<1:18:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13910/15423 [11:59:15<1:18:14,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3520 max words, 200 samples - at ../dataset/gen-word-3520-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13911/15423 [11:59:18<1:18:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13911/15423 [11:59:18<1:18:10,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3085 max words, 200 samples - at ../dataset/gen-word-3085-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13912/15423 [11:59:20<1:18:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13912/15423 [11:59:20<1:18:07,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3595 max words, 200 samples - at ../dataset/gen-word-3595-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13913/15423 [11:59:22<1:18:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13913/15423 [11:59:22<1:18:04,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3560 max words, 200 samples - at ../dataset/gen-word-3560-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13914/15423 [11:59:23<1:18:01,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3165 max words, 200 samples - at ../dataset/gen-word-3165-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13914/15423 [11:59:23<1:18:01,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3140 max words, 200 samples - at ../dataset/gen-word-3140-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13915/15423 [11:59:27<1:17:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13915/15423 [11:59:27<1:17:58,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3380 max words, 200 samples - at ../dataset/gen-word-3380-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13916/15423 [11:59:28<1:17:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13916/15423 [11:59:28<1:17:54,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3875 max words, 200 samples - at ../dataset/gen-word-3875-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13917/15423 [11:59:31<1:17:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13917/15423 [11:59:31<1:17:51,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2920 max words, 200 samples - at ../dataset/gen-word-2920-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13918/15423 [11:59:32<1:17:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13918/15423 [11:59:32<1:17:48,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2230 max words, 200 samples - at ../dataset/gen-word-2230-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13919/15423 [11:59:34<1:17:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13919/15423 [11:59:34<1:17:45,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3325 max words, 200 samples - at ../dataset/gen-word-3325-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13920/15423 [11:59:55<1:17:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13920/15423 [11:59:55<1:17:44,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2695 max words, 200 samples - at ../dataset/gen-word-2695-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13921/15423 [12:00:00<1:17:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13921/15423 [12:00:00<1:17:41,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3860 max words, 200 samples - at ../dataset/gen-word-3860-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13922/15423 [12:00:03<1:17:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13922/15423 [12:00:03<1:17:38,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3235 max words, 200 samples - at ../dataset/gen-word-3235-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13923/15423 [12:00:04<1:17:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13923/15423 [12:00:04<1:17:34,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3350 max words, 200 samples - at ../dataset/gen-word-3350-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13924/15423 [12:00:08<1:17:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13924/15423 [12:00:08<1:17:31,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3395 max words, 200 samples - at ../dataset/gen-word-3395-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13925/15423 [12:00:09<1:17:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13925/15423 [12:00:09<1:17:28,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3890 max words, 200 samples - at ../dataset/gen-word-3890-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13926/15423 [12:00:12<1:17:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13926/15423 [12:00:12<1:17:25,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3850 max words, 200 samples - at ../dataset/gen-word-3850-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13927/15423 [12:00:16<1:17:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13927/15423 [12:00:16<1:17:22,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3640 max words, 200 samples - at ../dataset/gen-word-3640-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13928/15423 [12:00:17<1:17:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13928/15423 [12:00:17<1:17:18,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3250 max words, 200 samples - at ../dataset/gen-word-3250-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13929/15423 [12:00:19<1:17:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13929/15423 [12:00:19<1:17:15,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3645 max words, 200 samples - at ../dataset/gen-word-3645-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13930/15423 [12:00:23<1:17:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13930/15423 [12:00:23<1:17:12,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3775 max words, 200 samples - at ../dataset/gen-word-3775-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13931/15423 [12:00:25<1:17:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13931/15423 [12:00:25<1:17:09,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3895 max words, 200 samples - at ../dataset/gen-word-3895-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13932/15423 [12:00:28<1:17:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13932/15423 [12:00:28<1:17:06,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3900 max words, 200 samples - at ../dataset/gen-word-3900-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13933/15423 [12:00:32<1:17:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13933/15423 [12:00:32<1:17:03,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3605 max words, 200 samples - at ../dataset/gen-word-3605-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13934/15423 [12:00:36<1:17:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13934/15423 [12:00:36<1:17:00,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3785 max words, 200 samples - at ../dataset/gen-word-3785-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13935/15423 [12:00:39<1:16:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13935/15423 [12:00:39<1:16:57,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3855 max words, 200 samples - at ../dataset/gen-word-3855-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13936/15423 [12:00:41<1:16:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13936/15423 [12:00:41<1:16:53,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3915 max words, 200 samples - at ../dataset/gen-word-3915-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13937/15423 [12:00:44<1:16:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13937/15423 [12:00:44<1:16:50,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3005 max words, 200 samples - at ../dataset/gen-word-3005-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13938/15423 [12:00:46<1:16:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13938/15423 [12:00:46<1:16:47,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3820 max words, 200 samples - at ../dataset/gen-word-3820-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13939/15423 [12:00:49<1:16:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13939/15423 [12:00:49<1:16:44,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3835 max words, 200 samples - at ../dataset/gen-word-3835-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13940/15423 [12:00:52<1:16:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13940/15423 [12:00:52<1:16:41,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3765 max words, 200 samples - at ../dataset/gen-word-3765-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13941/15423 [12:00:53<1:16:38,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3570 max words, 200 samples - at ../dataset/gen-word-3570-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13941/15423 [12:00:53<1:16:38,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3975 max words, 200 samples - at ../dataset/gen-word-3975-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13942/15423 [12:00:53<1:16:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13942/15423 [12:00:53<1:16:34,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3745 max words, 200 samples - at ../dataset/gen-word-3745-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13943/15423 [12:00:58<1:16:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13943/15423 [12:00:58<1:16:31,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3450 max words, 200 samples - at ../dataset/gen-word-3450-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13944/15423 [12:01:00<1:16:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13944/15423 [12:01:00<1:16:28,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3735 max words, 200 samples - at ../dataset/gen-word-3735-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13945/15423 [12:01:03<1:16:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13945/15423 [12:01:03<1:16:25,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3705 max words, 200 samples - at ../dataset/gen-word-3705-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13946/15423 [12:01:04<1:16:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13946/15423 [12:01:04<1:16:22,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 2995 max words, 200 samples - at ../dataset/gen-word-2995-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13947/15423 [12:01:06<1:16:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13947/15423 [12:01:06<1:16:18,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3530 max words, 200 samples - at ../dataset/gen-word-3530-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13948/15423 [12:01:09<1:16:15,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3980 max words, 200 samples - at ../dataset/gen-word-3980-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13948/15423 [12:01:09<1:16:15,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3655 max words, 200 samples - at ../dataset/gen-word-3655-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13949/15423 [12:01:10<1:16:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13949/15423 [12:01:10<1:16:12,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3690 max words, 200 samples - at ../dataset/gen-word-3690-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13950/15423 [12:01:14<1:16:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13950/15423 [12:01:14<1:16:09,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3830 max words, 200 samples - at ../dataset/gen-word-3830-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13951/15423 [12:01:18<1:16:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13951/15423 [12:01:18<1:16:06,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3335 max words, 200 samples - at ../dataset/gen-word-3335-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13952/15423 [12:01:32<1:16:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13952/15423 [12:01:32<1:16:04,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3870 max words, 200 samples - at ../dataset/gen-word-3870-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13953/15423 [12:01:35<1:16:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13953/15423 [12:01:35<1:16:01,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3505 max words, 200 samples - at ../dataset/gen-word-3505-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13954/15423 [12:01:39<1:15:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13954/15423 [12:01:39<1:15:58,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3150 max words, 200 samples - at ../dataset/gen-word-3150-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13955/15423 [12:01:41<1:15:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13955/15423 [12:01:41<1:15:55,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3580 max words, 200 samples - at ../dataset/gen-word-3580-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13956/15423 [12:01:44<1:15:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13956/15423 [12:01:44<1:15:51,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3970 max words, 200 samples - at ../dataset/gen-word-3970-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  90%|▉| 13957/15423 [12:01:45<1:15:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  90%|▉| 13957/15423 [12:01:45<1:15:48,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3330 max words, 200 samples - at ../dataset/gen-word-3330-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13958/15423 [12:01:49<1:15:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13958/15423 [12:01:49<1:15:45,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3920 max words, 200 samples - at ../dataset/gen-word-3920-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13959/15423 [12:01:49<1:15:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13959/15423 [12:01:49<1:15:42,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3740 max words, 200 samples - at ../dataset/gen-word-3740-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13960/15423 [12:01:53<1:15:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13960/15423 [12:01:54<1:15:39,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3215 max words, 200 samples - at ../dataset/gen-word-3215-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13961/15423 [12:01:55<1:15:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13961/15423 [12:01:55<1:15:36,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3825 max words, 200 samples - at ../dataset/gen-word-3825-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13962/15423 [12:01:57<1:15:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13962/15423 [12:01:57<1:15:32,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3960 max words, 200 samples - at ../dataset/gen-word-3960-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13963/15423 [12:02:00<1:15:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13963/15423 [12:02:00<1:15:29,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3715 max words, 200 samples - at ../dataset/gen-word-3715-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13964/15423 [12:02:05<1:15:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13964/15423 [12:02:05<1:15:26,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3670 max words, 200 samples - at ../dataset/gen-word-3670-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13965/15423 [12:02:07<1:15:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13965/15423 [12:02:07<1:15:23,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3620 max words, 200 samples - at ../dataset/gen-word-3620-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13966/15423 [12:02:08<1:15:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13966/15423 [12:02:08<1:15:20,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3905 max words, 200 samples - at ../dataset/gen-word-3905-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13967/15423 [12:02:12<1:15:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13967/15423 [12:02:12<1:15:17,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3910 max words, 200 samples - at ../dataset/gen-word-3910-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13968/15423 [12:02:13<1:15:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13968/15423 [12:02:13<1:15:13,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3925 max words, 200 samples - at ../dataset/gen-word-3925-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13969/15423 [12:02:16<1:15:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13969/15423 [12:02:16<1:15:10,  3.10s/it, v_num=ufwn, train/los"
+      "Generated JSONL file with - 3880 max words, 200 samples - at ../dataset/gen-word-3880-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13970/15423 [12:02:18<1:15:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13970/15423 [12:02:18<1:15:07,  3.10s/it, v_num=ufwn, train/los"
+      "## Done ##\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13971/15423 [12:02:22<1:15:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13971/15423 [12:02:22<1:15:04,  3.10s/it, v_num=ufwn, train/los"
+      "total 3.4G\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13972/15423 [12:02:24<1:15:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13972/15423 [12:02:24<1:15:01,  3.10s/it, v_num=ufwn, train/los"
+      "drwxr-xr-x  2 root root   72K Sep  1 14:30 .\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13973/15423 [12:02:27<1:14:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13973/15423 [12:02:27<1:14:58,  3.10s/it, v_num=ufwn, train/los"
+      "drwxr-xr-x 14 root root   302 Sep  1 14:30 ..\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13974/15423 [12:02:28<1:14:54,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root   20K Sep  1 14:30 gen-word-10-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13974/15423 [12:02:28<1:14:54,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  106K Sep  1 14:30 gen-word-100-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13975/15423 [12:02:29<1:14:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13975/15423 [12:02:29<1:14:51,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.0M Sep  1 14:30 gen-word-1000-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13976/15423 [12:02:33<1:14:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13976/15423 [12:02:33<1:14:48,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.0M Sep  1 14:30 gen-word-1005-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13977/15423 [12:02:34<1:14:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13977/15423 [12:02:34<1:14:45,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.0M Sep  1 14:30 gen-word-1010-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13978/15423 [12:02:36<1:14:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13978/15423 [12:02:36<1:14:42,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.0M Sep  1 14:30 gen-word-1015-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13979/15423 [12:02:39<1:14:38,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.0M Sep  1 14:30 gen-word-1020-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13979/15423 [12:02:39<1:14:38,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.0M Sep  1 14:30 gen-word-1025-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13980/15423 [12:02:41<1:14:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13980/15423 [12:02:41<1:14:35,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.0M Sep  1 14:30 gen-word-1030-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13981/15423 [12:02:42<1:14:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13981/15423 [12:02:42<1:14:32,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.0M Sep  1 14:30 gen-word-1035-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13982/15423 [12:02:43<1:14:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13982/15423 [12:02:43<1:14:29,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.1M Sep  1 14:30 gen-word-1040-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13983/15423 [12:02:46<1:14:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13983/15423 [12:02:46<1:14:26,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.0M Sep  1 14:30 gen-word-1045-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13984/15423 [12:03:06<1:14:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13984/15423 [12:03:06<1:14:24,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  114K Sep  1 14:30 gen-word-105-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13985/15423 [12:03:09<1:14:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13985/15423 [12:03:09<1:14:21,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.1M Sep  1 14:30 gen-word-1050-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13986/15423 [12:03:13<1:14:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13986/15423 [12:03:13<1:14:18,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.1M Sep  1 14:30 gen-word-1055-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13987/15423 [12:03:15<1:14:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13987/15423 [12:03:15<1:14:15,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.1M Sep  1 14:30 gen-word-1060-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13988/15423 [12:03:17<1:14:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13988/15423 [12:03:17<1:14:12,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.1M Sep  1 14:30 gen-word-1065-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13989/15423 [12:03:19<1:14:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13989/15423 [12:03:19<1:14:08,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.1M Sep  1 14:30 gen-word-1070-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13990/15423 [12:03:23<1:14:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13990/15423 [12:03:23<1:14:05,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.1M Sep  1 14:30 gen-word-1075-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13991/15423 [12:03:27<1:14:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13991/15423 [12:03:27<1:14:02,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.1M Sep  1 14:30 gen-word-1080-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13992/15423 [12:03:28<1:13:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13992/15423 [12:03:28<1:13:59,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.1M Sep  1 14:30 gen-word-1085-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13993/15423 [12:03:29<1:13:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13993/15423 [12:03:29<1:13:56,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.1M Sep  1 14:30 gen-word-1090-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13994/15423 [12:03:31<1:13:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13994/15423 [12:03:31<1:13:52,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.2M Sep  1 14:30 gen-word-1095-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13995/15423 [12:03:35<1:13:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13995/15423 [12:03:35<1:13:49,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  117K Sep  1 14:30 gen-word-110-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13996/15423 [12:03:36<1:13:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13996/15423 [12:03:36<1:13:46,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.2M Sep  1 14:30 gen-word-1100-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13997/15423 [12:03:38<1:13:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13997/15423 [12:03:38<1:13:43,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.2M Sep  1 14:30 gen-word-1105-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13998/15423 [12:03:39<1:13:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13998/15423 [12:03:39<1:13:40,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.2M Sep  1 14:30 gen-word-1110-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 13999/15423 [12:03:43<1:13:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 13999/15423 [12:03:43<1:13:37,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.2M Sep  1 14:30 gen-word-1115-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14000/15423 [12:03:46<1:13:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14000/15423 [12:03:46<1:13:33,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.2M Sep  1 14:30 gen-word-1120-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14001/15423 [12:03:47<1:13:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14001/15423 [12:03:47<1:13:30,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.2M Sep  1 14:30 gen-word-1125-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14002/15423 [12:03:50<1:13:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14002/15423 [12:03:50<1:13:27,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.2M Sep  1 14:30 gen-word-1130-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14003/15423 [12:03:54<1:13:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14003/15423 [12:03:54<1:13:24,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.2M Sep  1 14:30 gen-word-1135-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14004/15423 [12:03:56<1:13:21,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.2M Sep  1 14:30 gen-word-1140-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14004/15423 [12:03:56<1:13:21,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.2M Sep  1 14:30 gen-word-1145-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14005/15423 [12:04:00<1:13:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14005/15423 [12:04:00<1:13:18,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  123K Sep  1 14:30 gen-word-115-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14006/15423 [12:04:01<1:13:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14006/15423 [12:04:01<1:13:15,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.3M Sep  1 14:30 gen-word-1150-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14007/15423 [12:04:03<1:13:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14007/15423 [12:04:03<1:13:11,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.3M Sep  1 14:30 gen-word-1155-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14008/15423 [12:04:04<1:13:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14008/15423 [12:04:04<1:13:08,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.3M Sep  1 14:30 gen-word-1160-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14009/15423 [12:04:06<1:13:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14009/15423 [12:04:06<1:13:05,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.3M Sep  1 14:30 gen-word-1165-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14010/15423 [12:04:08<1:13:02,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.3M Sep  1 14:30 gen-word-1170-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14010/15423 [12:04:08<1:13:02,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.3M Sep  1 14:30 gen-word-1175-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14011/15423 [12:04:12<1:12:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14011/15423 [12:04:12<1:12:59,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.3M Sep  1 14:30 gen-word-1180-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14012/15423 [12:04:14<1:12:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14012/15423 [12:04:14<1:12:55,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.3M Sep  1 14:30 gen-word-1185-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14013/15423 [12:04:18<1:12:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14013/15423 [12:04:18<1:12:52,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.3M Sep  1 14:30 gen-word-1190-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14014/15423 [12:04:23<1:12:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14014/15423 [12:04:23<1:12:49,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.3M Sep  1 14:30 gen-word-1195-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14015/15423 [12:04:27<1:12:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14015/15423 [12:04:27<1:12:46,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  129K Sep  1 14:30 gen-word-120-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14016/15423 [12:04:44<1:12:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14016/15423 [12:04:44<1:12:45,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.3M Sep  1 14:30 gen-word-1200-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14017/15423 [12:04:47<1:12:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14017/15423 [12:04:47<1:12:42,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.4M Sep  1 14:30 gen-word-1205-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14018/15423 [12:04:48<1:12:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14018/15423 [12:04:48<1:12:38,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.4M Sep  1 14:30 gen-word-1210-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14019/15423 [12:04:50<1:12:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14019/15423 [12:04:50<1:12:35,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.4M Sep  1 14:30 gen-word-1215-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14020/15423 [12:04:54<1:12:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14020/15423 [12:04:54<1:12:32,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.4M Sep  1 14:30 gen-word-1220-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14021/15423 [12:04:56<1:12:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14021/15423 [12:04:56<1:12:29,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.4M Sep  1 14:30 gen-word-1225-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14022/15423 [12:04:59<1:12:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14022/15423 [12:04:59<1:12:26,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.4M Sep  1 14:30 gen-word-1230-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14023/15423 [12:05:01<1:12:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14023/15423 [12:05:01<1:12:22,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.4M Sep  1 14:30 gen-word-1235-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14024/15423 [12:05:05<1:12:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14024/15423 [12:05:05<1:12:19,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.4M Sep  1 14:30 gen-word-1240-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14025/15423 [12:05:07<1:12:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14025/15423 [12:05:07<1:12:16,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.4M Sep  1 14:30 gen-word-1245-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14026/15423 [12:05:07<1:12:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14026/15423 [12:05:07<1:12:13,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  132K Sep  1 14:30 gen-word-125-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14027/15423 [12:05:09<1:12:10,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.4M Sep  1 14:30 gen-word-1250-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14027/15423 [12:05:09<1:12:10,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.4M Sep  1 14:30 gen-word-1255-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14028/15423 [12:05:11<1:12:06,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.5M Sep  1 14:30 gen-word-1260-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14028/15423 [12:05:11<1:12:06,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.5M Sep  1 14:30 gen-word-1265-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14029/15423 [12:05:14<1:12:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14029/15423 [12:05:14<1:12:03,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.5M Sep  1 14:30 gen-word-1270-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14030/15423 [12:05:16<1:12:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14030/15423 [12:05:16<1:12:00,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.5M Sep  1 14:30 gen-word-1275-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14031/15423 [12:05:20<1:11:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14031/15423 [12:05:20<1:11:57,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.5M Sep  1 14:30 gen-word-1280-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14032/15423 [12:05:20<1:11:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14032/15423 [12:05:20<1:11:54,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.5M Sep  1 14:30 gen-word-1285-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14033/15423 [12:05:22<1:11:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14033/15423 [12:05:22<1:11:51,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.5M Sep  1 14:30 gen-word-1290-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14034/15423 [12:05:26<1:11:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14034/15423 [12:05:26<1:11:48,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.5M Sep  1 14:30 gen-word-1295-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14035/15423 [12:05:30<1:11:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14035/15423 [12:05:30<1:11:44,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  137K Sep  1 14:30 gen-word-130-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14036/15423 [12:05:34<1:11:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14036/15423 [12:05:34<1:11:41,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.6M Sep  1 14:30 gen-word-1300-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14037/15423 [12:05:38<1:11:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14037/15423 [12:05:38<1:11:38,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.6M Sep  1 14:30 gen-word-1305-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14038/15423 [12:05:40<1:11:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14038/15423 [12:05:40<1:11:35,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.6M Sep  1 14:30 gen-word-1310-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14039/15423 [12:05:45<1:11:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14039/15423 [12:05:45<1:11:32,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.6M Sep  1 14:30 gen-word-1315-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14040/15423 [12:05:48<1:11:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14040/15423 [12:05:48<1:11:29,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.6M Sep  1 14:30 gen-word-1320-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14041/15423 [12:05:52<1:11:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14041/15423 [12:05:52<1:11:26,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.6M Sep  1 14:30 gen-word-1325-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14042/15423 [12:05:53<1:11:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14042/15423 [12:05:53<1:11:23,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.6M Sep  1 14:30 gen-word-1330-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14043/15423 [12:05:55<1:11:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14043/15423 [12:05:55<1:11:20,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.6M Sep  1 14:30 gen-word-1335-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14044/15423 [12:05:58<1:11:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14044/15423 [12:05:58<1:11:17,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.6M Sep  1 14:30 gen-word-1340-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14045/15423 [12:06:01<1:11:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14045/15423 [12:06:01<1:11:14,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.6M Sep  1 14:30 gen-word-1345-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14046/15423 [12:06:04<1:11:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14046/15423 [12:06:04<1:11:10,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  144K Sep  1 14:30 gen-word-135-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14047/15423 [12:06:08<1:11:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14047/15423 [12:06:08<1:11:07,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.6M Sep  1 14:30 gen-word-1350-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14048/15423 [12:06:21<1:11:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14048/15423 [12:06:21<1:11:05,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.6M Sep  1 14:30 gen-word-1355-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14049/15423 [12:06:25<1:11:02,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.7M Sep  1 14:30 gen-word-1360-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14049/15423 [12:06:25<1:11:02,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.7M Sep  1 14:30 gen-word-1365-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14050/15423 [12:06:26<1:10:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14050/15423 [12:06:26<1:10:59,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.7M Sep  1 14:30 gen-word-1370-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14051/15423 [12:06:27<1:10:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14051/15423 [12:06:27<1:10:56,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.7M Sep  1 14:30 gen-word-1375-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14052/15423 [12:06:31<1:10:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14052/15423 [12:06:31<1:10:53,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.7M Sep  1 14:30 gen-word-1380-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14053/15423 [12:06:33<1:10:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14053/15423 [12:06:33<1:10:49,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.7M Sep  1 14:30 gen-word-1385-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14054/15423 [12:06:35<1:10:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14054/15423 [12:06:35<1:10:46,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.7M Sep  1 14:30 gen-word-1390-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14055/15423 [12:06:36<1:10:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14055/15423 [12:06:36<1:10:43,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.7M Sep  1 14:30 gen-word-1395-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14056/15423 [12:06:40<1:10:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14056/15423 [12:06:40<1:10:40,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  148K Sep  1 14:30 gen-word-140-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14057/15423 [12:06:44<1:10:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14057/15423 [12:06:44<1:10:37,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.7M Sep  1 14:30 gen-word-1400-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14058/15423 [12:06:45<1:10:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14058/15423 [12:06:45<1:10:33,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.7M Sep  1 14:30 gen-word-1405-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14059/15423 [12:06:47<1:10:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14059/15423 [12:06:47<1:10:30,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.7M Sep  1 14:30 gen-word-1410-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14060/15423 [12:06:50<1:10:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14060/15423 [12:06:50<1:10:27,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.8M Sep  1 14:30 gen-word-1415-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14061/15423 [12:06:53<1:10:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14061/15423 [12:06:53<1:10:24,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.8M Sep  1 14:30 gen-word-1420-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14062/15423 [12:06:57<1:10:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14062/15423 [12:06:57<1:10:21,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.8M Sep  1 14:30 gen-word-1425-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14063/15423 [12:07:00<1:10:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14063/15423 [12:07:00<1:10:18,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.8M Sep  1 14:30 gen-word-1430-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14064/15423 [12:07:03<1:10:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14064/15423 [12:07:03<1:10:15,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.8M Sep  1 14:30 gen-word-1435-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14065/15423 [12:07:04<1:10:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14065/15423 [12:07:04<1:10:12,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.8M Sep  1 14:30 gen-word-1440-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14066/15423 [12:07:07<1:10:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14066/15423 [12:07:07<1:10:08,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.8M Sep  1 14:30 gen-word-1445-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14067/15423 [12:07:11<1:10:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14067/15423 [12:07:11<1:10:05,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  152K Sep  1 14:30 gen-word-145-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14068/15423 [12:07:13<1:10:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14068/15423 [12:07:13<1:10:02,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.8M Sep  1 14:30 gen-word-1450-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14069/15423 [12:07:16<1:09:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14069/15423 [12:07:16<1:09:59,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.8M Sep  1 14:30 gen-word-1455-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14070/15423 [12:07:18<1:09:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14070/15423 [12:07:18<1:09:56,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.9M Sep  1 14:30 gen-word-1460-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14071/15423 [12:07:22<1:09:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14071/15423 [12:07:22<1:09:53,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.8M Sep  1 14:30 gen-word-1465-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14072/15423 [12:07:25<1:09:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14072/15423 [12:07:25<1:09:50,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.8M Sep  1 14:30 gen-word-1470-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14073/15423 [12:07:27<1:09:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14073/15423 [12:07:27<1:09:47,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.9M Sep  1 14:30 gen-word-1475-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14074/15423 [12:07:28<1:09:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14074/15423 [12:07:28<1:09:43,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.9M Sep  1 14:30 gen-word-1480-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14075/15423 [12:07:30<1:09:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14075/15423 [12:07:30<1:09:40,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.9M Sep  1 14:30 gen-word-1485-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14076/15423 [12:07:33<1:09:37,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.9M Sep  1 14:30 gen-word-1490-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14076/15423 [12:07:33<1:09:37,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.9M Sep  1 14:30 gen-word-1495-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14077/15423 [12:07:37<1:09:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14077/15423 [12:07:37<1:09:34,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root   24K Sep  1 14:30 gen-word-15-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14078/15423 [12:07:40<1:09:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14078/15423 [12:07:40<1:09:31,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  157K Sep  1 14:30 gen-word-150-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14079/15423 [12:07:43<1:09:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14079/15423 [12:07:43<1:09:28,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.9M Sep  1 14:30 gen-word-1500-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14080/15423 [12:07:59<1:09:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14080/15423 [12:07:59<1:09:26,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.9M Sep  1 14:30 gen-word-1505-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14081/15423 [12:08:00<1:09:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14081/15423 [12:08:00<1:09:23,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.9M Sep  1 14:30 gen-word-1510-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14082/15423 [12:08:04<1:09:20,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  2.9M Sep  1 14:30 gen-word-1515-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14082/15423 [12:08:04<1:09:20,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.0M Sep  1 14:30 gen-word-1520-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14083/15423 [12:08:07<1:09:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14083/15423 [12:08:07<1:09:16,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.0M Sep  1 14:30 gen-word-1525-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14084/15423 [12:08:10<1:09:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14084/15423 [12:08:10<1:09:13,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.0M Sep  1 14:30 gen-word-1530-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14085/15423 [12:08:12<1:09:10,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.0M Sep  1 14:30 gen-word-1535-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14085/15423 [12:08:12<1:09:10,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.0M Sep  1 14:30 gen-word-1540-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14086/15423 [12:08:15<1:09:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14086/15423 [12:08:15<1:09:07,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.0M Sep  1 14:30 gen-word-1545-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14087/15423 [12:08:16<1:09:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14087/15423 [12:08:16<1:09:04,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  160K Sep  1 14:30 gen-word-155-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14088/15423 [12:08:21<1:09:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14088/15423 [12:08:21<1:09:01,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.0M Sep  1 14:30 gen-word-1550-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14089/15423 [12:08:21<1:08:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14089/15423 [12:08:21<1:08:57,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.0M Sep  1 14:30 gen-word-1555-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14090/15423 [12:08:26<1:08:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14090/15423 [12:08:26<1:08:54,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.0M Sep  1 14:30 gen-word-1560-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14091/15423 [12:08:28<1:08:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14091/15423 [12:08:28<1:08:51,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.0M Sep  1 14:30 gen-word-1565-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14092/15423 [12:08:31<1:08:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14092/15423 [12:08:31<1:08:48,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.1M Sep  1 14:30 gen-word-1570-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14093/15423 [12:08:33<1:08:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14093/15423 [12:08:33<1:08:45,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.1M Sep  1 14:30 gen-word-1575-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14094/15423 [12:08:35<1:08:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14094/15423 [12:08:35<1:08:42,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.1M Sep  1 14:30 gen-word-1580-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14095/15423 [12:08:37<1:08:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14095/15423 [12:08:37<1:08:38,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.1M Sep  1 14:30 gen-word-1585-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14096/15423 [12:08:41<1:08:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14096/15423 [12:08:41<1:08:35,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.1M Sep  1 14:30 gen-word-1590-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14097/15423 [12:08:41<1:08:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14097/15423 [12:08:41<1:08:32,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.1M Sep  1 14:30 gen-word-1595-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14098/15423 [12:08:45<1:08:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14098/15423 [12:08:45<1:08:29,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  166K Sep  1 14:30 gen-word-160-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14099/15423 [12:08:49<1:08:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14099/15423 [12:08:49<1:08:26,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.1M Sep  1 14:30 gen-word-1600-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14100/15423 [12:08:54<1:08:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14100/15423 [12:08:54<1:08:23,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.1M Sep  1 14:30 gen-word-1605-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14101/15423 [12:08:56<1:08:20,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.1M Sep  1 14:30 gen-word-1610-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14101/15423 [12:08:56<1:08:20,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.1M Sep  1 14:30 gen-word-1615-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14102/15423 [12:09:00<1:08:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14102/15423 [12:09:00<1:08:17,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.2M Sep  1 14:30 gen-word-1620-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14103/15423 [12:09:04<1:08:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14103/15423 [12:09:04<1:08:14,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.1M Sep  1 14:30 gen-word-1625-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14104/15423 [12:09:06<1:08:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14104/15423 [12:09:06<1:08:11,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.1M Sep  1 14:30 gen-word-1630-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14105/15423 [12:09:08<1:08:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14105/15423 [12:09:08<1:08:07,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.2M Sep  1 14:30 gen-word-1635-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14106/15423 [12:09:11<1:08:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14106/15423 [12:09:11<1:08:04,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.2M Sep  1 14:30 gen-word-1640-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14107/15423 [12:09:13<1:08:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14107/15423 [12:09:13<1:08:01,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.2M Sep  1 14:30 gen-word-1645-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14108/15423 [12:09:16<1:07:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14108/15423 [12:09:16<1:07:58,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  171K Sep  1 14:30 gen-word-165-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14109/15423 [12:09:17<1:07:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14109/15423 [12:09:17<1:07:55,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.2M Sep  1 14:30 gen-word-1650-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14110/15423 [12:09:20<1:07:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14110/15423 [12:09:20<1:07:52,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.2M Sep  1 14:30 gen-word-1655-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14111/15423 [12:09:21<1:07:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14111/15423 [12:09:21<1:07:48,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.2M Sep  1 14:30 gen-word-1660-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  91%|▉| 14112/15423 [12:09:37<1:07:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  91%|▉| 14112/15423 [12:09:37<1:07:46,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.2M Sep  1 14:30 gen-word-1665-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14113/15423 [12:09:39<1:07:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14113/15423 [12:09:39<1:07:43,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.2M Sep  1 14:30 gen-word-1670-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14114/15423 [12:09:42<1:07:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14114/15423 [12:09:42<1:07:40,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.2M Sep  1 14:30 gen-word-1675-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14115/15423 [12:09:43<1:07:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14115/15423 [12:09:43<1:07:37,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.2M Sep  1 14:30 gen-word-1680-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14116/15423 [12:09:45<1:07:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14116/15423 [12:09:45<1:07:34,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.3M Sep  1 14:30 gen-word-1685-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14117/15423 [12:09:47<1:07:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14117/15423 [12:09:47<1:07:30,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.3M Sep  1 14:30 gen-word-1690-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14118/15423 [12:09:50<1:07:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14118/15423 [12:09:50<1:07:27,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.3M Sep  1 14:30 gen-word-1695-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14119/15423 [12:09:53<1:07:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14119/15423 [12:09:53<1:07:24,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  179K Sep  1 14:30 gen-word-170-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14120/15423 [12:09:54<1:07:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14120/15423 [12:09:54<1:07:21,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.3M Sep  1 14:30 gen-word-1700-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14121/15423 [12:09:57<1:07:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14121/15423 [12:09:57<1:07:18,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.3M Sep  1 14:30 gen-word-1705-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14122/15423 [12:09:59<1:07:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14122/15423 [12:09:59<1:07:15,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.3M Sep  1 14:30 gen-word-1710-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14123/15423 [12:10:03<1:07:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14123/15423 [12:10:03<1:07:12,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.3M Sep  1 14:30 gen-word-1715-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14124/15423 [12:10:05<1:07:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14124/15423 [12:10:05<1:07:08,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.3M Sep  1 14:30 gen-word-1720-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14125/15423 [12:10:07<1:07:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14125/15423 [12:10:07<1:07:05,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.4M Sep  1 14:30 gen-word-1725-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14126/15423 [12:10:08<1:07:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14126/15423 [12:10:08<1:07:02,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.3M Sep  1 14:30 gen-word-1730-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14127/15423 [12:10:12<1:06:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14127/15423 [12:10:12<1:06:59,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.3M Sep  1 14:30 gen-word-1735-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14128/15423 [12:10:15<1:06:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14128/15423 [12:10:15<1:06:56,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.4M Sep  1 14:30 gen-word-1740-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14129/15423 [12:10:19<1:06:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14129/15423 [12:10:19<1:06:53,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.4M Sep  1 14:30 gen-word-1745-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14130/15423 [12:10:21<1:06:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14130/15423 [12:10:21<1:06:49,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  180K Sep  1 14:30 gen-word-175-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14131/15423 [12:10:23<1:06:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14131/15423 [12:10:23<1:06:46,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.4M Sep  1 14:30 gen-word-1750-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14132/15423 [12:10:25<1:06:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14132/15423 [12:10:25<1:06:43,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.4M Sep  1 14:30 gen-word-1755-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14133/15423 [12:10:29<1:06:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14133/15423 [12:10:29<1:06:40,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.4M Sep  1 14:30 gen-word-1760-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14134/15423 [12:10:31<1:06:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14134/15423 [12:10:31<1:06:37,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.4M Sep  1 14:30 gen-word-1765-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14135/15423 [12:10:35<1:06:34,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14135/15423 [12:10:35<1:06:34,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.4M Sep  1 14:30 gen-word-1770-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14136/15423 [12:10:40<1:06:31,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14136/15423 [12:10:40<1:06:31,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.4M Sep  1 14:30 gen-word-1775-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14137/15423 [12:10:44<1:06:28,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14137/15423 [12:10:44<1:06:28,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.5M Sep  1 14:30 gen-word-1780-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14138/15423 [12:10:45<1:06:25,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14138/15423 [12:10:45<1:06:25,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.4M Sep  1 14:30 gen-word-1785-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14139/15423 [12:10:46<1:06:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14139/15423 [12:10:46<1:06:21,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.5M Sep  1 14:30 gen-word-1790-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14140/15423 [12:10:48<1:06:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14140/15423 [12:10:48<1:06:18,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.5M Sep  1 14:30 gen-word-1795-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14141/15423 [12:10:51<1:06:15,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14141/15423 [12:10:51<1:06:15,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  186K Sep  1 14:30 gen-word-180-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14142/15423 [12:10:56<1:06:12,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14142/15423 [12:10:56<1:06:12,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.5M Sep  1 14:30 gen-word-1800-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14143/15423 [12:10:58<1:06:09,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14143/15423 [12:10:58<1:06:09,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.5M Sep  1 14:30 gen-word-1805-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14144/15423 [12:11:14<1:06:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14144/15423 [12:11:14<1:06:07,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.5M Sep  1 14:30 gen-word-1810-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14145/15423 [12:11:15<1:06:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14145/15423 [12:11:15<1:06:04,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.5M Sep  1 14:30 gen-word-1815-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14146/15423 [12:11:20<1:06:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14146/15423 [12:11:20<1:06:01,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.5M Sep  1 14:30 gen-word-1820-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14147/15423 [12:11:20<1:05:57,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.5M Sep  1 14:30 gen-word-1825-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14147/15423 [12:11:20<1:05:57,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.6M Sep  1 14:30 gen-word-1830-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14148/15423 [12:11:24<1:05:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14148/15423 [12:11:24<1:05:54,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.6M Sep  1 14:30 gen-word-1835-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14149/15423 [12:11:27<1:05:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14149/15423 [12:11:27<1:05:51,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.6M Sep  1 14:30 gen-word-1840-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14150/15423 [12:11:30<1:05:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14150/15423 [12:11:30<1:05:48,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.6M Sep  1 14:30 gen-word-1845-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14151/15423 [12:11:32<1:05:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14151/15423 [12:11:32<1:05:45,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  188K Sep  1 14:30 gen-word-185-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14152/15423 [12:11:36<1:05:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14152/15423 [12:11:36<1:05:42,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.6M Sep  1 14:30 gen-word-1850-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14153/15423 [12:11:38<1:05:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14153/15423 [12:11:38<1:05:39,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.6M Sep  1 14:30 gen-word-1855-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14154/15423 [12:11:41<1:05:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14154/15423 [12:11:41<1:05:36,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.6M Sep  1 14:30 gen-word-1860-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14155/15423 [12:11:45<1:05:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14155/15423 [12:11:45<1:05:33,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.6M Sep  1 14:30 gen-word-1865-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14156/15423 [12:11:46<1:05:29,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.6M Sep  1 14:30 gen-word-1870-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14156/15423 [12:11:46<1:05:29,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.6M Sep  1 14:30 gen-word-1875-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14157/15423 [12:11:47<1:05:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14157/15423 [12:11:47<1:05:26,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.6M Sep  1 14:30 gen-word-1880-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14158/15423 [12:11:51<1:05:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14158/15423 [12:11:51<1:05:23,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.7M Sep  1 14:30 gen-word-1885-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14159/15423 [12:11:53<1:05:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14159/15423 [12:11:53<1:05:20,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.6M Sep  1 14:30 gen-word-1890-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14160/15423 [12:11:55<1:05:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14160/15423 [12:11:55<1:05:17,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.7M Sep  1 14:30 gen-word-1895-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14161/15423 [12:11:56<1:05:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14161/15423 [12:11:56<1:05:13,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  195K Sep  1 14:30 gen-word-190-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14162/15423 [12:11:57<1:05:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14162/15423 [12:11:57<1:05:10,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.7M Sep  1 14:30 gen-word-1900-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14163/15423 [12:12:00<1:05:07,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14163/15423 [12:12:00<1:05:07,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.7M Sep  1 14:30 gen-word-1905-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14164/15423 [12:12:03<1:05:04,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14164/15423 [12:12:03<1:05:04,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.7M Sep  1 14:30 gen-word-1910-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14165/15423 [12:12:07<1:05:01,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14165/15423 [12:12:07<1:05:01,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.7M Sep  1 14:30 gen-word-1915-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14166/15423 [12:12:09<1:04:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14166/15423 [12:12:09<1:04:58,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.7M Sep  1 14:30 gen-word-1920-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14167/15423 [12:12:12<1:04:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14167/15423 [12:12:12<1:04:54,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.7M Sep  1 14:30 gen-word-1925-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14168/15423 [12:12:14<1:04:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14168/15423 [12:12:14<1:04:51,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.7M Sep  1 14:30 gen-word-1930-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14169/15423 [12:12:16<1:04:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14169/15423 [12:12:16<1:04:48,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.7M Sep  1 14:30 gen-word-1935-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14170/15423 [12:12:19<1:04:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14170/15423 [12:12:19<1:04:45,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.8M Sep  1 14:30 gen-word-1940-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14171/15423 [12:12:22<1:04:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14171/15423 [12:12:22<1:04:42,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.8M Sep  1 14:30 gen-word-1945-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14172/15423 [12:12:26<1:04:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14172/15423 [12:12:26<1:04:39,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  201K Sep  1 14:30 gen-word-195-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14173/15423 [12:12:28<1:04:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14173/15423 [12:12:28<1:04:36,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.8M Sep  1 14:30 gen-word-1950-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14174/15423 [12:12:31<1:04:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14174/15423 [12:12:31<1:04:32,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.8M Sep  1 14:30 gen-word-1955-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14175/15423 [12:12:35<1:04:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14175/15423 [12:12:35<1:04:29,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.8M Sep  1 14:30 gen-word-1960-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14176/15423 [12:12:47<1:04:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14176/15423 [12:12:47<1:04:27,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.8M Sep  1 14:30 gen-word-1965-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14177/15423 [12:12:49<1:04:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14177/15423 [12:12:49<1:04:24,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.8M Sep  1 14:30 gen-word-1970-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14178/15423 [12:12:53<1:04:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14178/15423 [12:12:53<1:04:21,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.8M Sep  1 14:30 gen-word-1975-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14179/15423 [12:12:56<1:04:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14179/15423 [12:12:56<1:04:18,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.8M Sep  1 14:30 gen-word-1980-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14180/15423 [12:12:56<1:04:14,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.9M Sep  1 14:30 gen-word-1985-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14180/15423 [12:12:56<1:04:14,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.8M Sep  1 14:30 gen-word-1990-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14181/15423 [12:12:57<1:04:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14181/15423 [12:12:57<1:04:11,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.8M Sep  1 14:30 gen-word-1995-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14182/15423 [12:12:59<1:04:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14182/15423 [12:12:59<1:04:08,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root   30K Sep  1 14:30 gen-word-20-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14183/15423 [12:13:00<1:04:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14183/15423 [12:13:00<1:04:05,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  204K Sep  1 14:30 gen-word-200-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14184/15423 [12:13:03<1:04:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14184/15423 [12:13:03<1:04:02,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.9M Sep  1 14:30 gen-word-2000-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14185/15423 [12:13:06<1:03:58,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14185/15423 [12:13:06<1:03:58,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.9M Sep  1 14:30 gen-word-2005-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14186/15423 [12:13:10<1:03:55,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14186/15423 [12:13:10<1:03:55,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.9M Sep  1 14:30 gen-word-2010-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14187/15423 [12:13:14<1:03:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14187/15423 [12:13:14<1:03:52,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.9M Sep  1 14:30 gen-word-2015-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14188/15423 [12:13:18<1:03:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14188/15423 [12:13:18<1:03:49,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.9M Sep  1 14:30 gen-word-2020-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14189/15423 [12:13:21<1:03:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14189/15423 [12:13:21<1:03:46,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.9M Sep  1 14:30 gen-word-2025-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14190/15423 [12:13:21<1:03:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14190/15423 [12:13:21<1:03:43,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.9M Sep  1 14:30 gen-word-2030-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14191/15423 [12:13:24<1:03:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14191/15423 [12:13:24<1:03:40,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.9M Sep  1 14:30 gen-word-2035-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14192/15423 [12:13:24<1:03:36,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14192/15423 [12:13:24<1:03:36,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.0M Sep  1 14:30 gen-word-2040-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14193/15423 [12:13:27<1:03:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14193/15423 [12:13:27<1:03:33,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  3.9M Sep  1 14:30 gen-word-2045-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14194/15423 [12:13:30<1:03:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14194/15423 [12:13:30<1:03:30,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  209K Sep  1 14:30 gen-word-205-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14195/15423 [12:13:31<1:03:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14195/15423 [12:13:31<1:03:27,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.0M Sep  1 14:30 gen-word-2050-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14196/15423 [12:13:33<1:03:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14196/15423 [12:13:33<1:03:24,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.0M Sep  1 14:30 gen-word-2055-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14197/15423 [12:13:37<1:03:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14197/15423 [12:13:37<1:03:21,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.0M Sep  1 14:30 gen-word-2060-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14198/15423 [12:13:39<1:03:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14198/15423 [12:13:39<1:03:18,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.0M Sep  1 14:30 gen-word-2065-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14199/15423 [12:13:42<1:03:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14199/15423 [12:13:42<1:03:14,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.0M Sep  1 14:30 gen-word-2070-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14200/15423 [12:13:46<1:03:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14200/15423 [12:13:46<1:03:11,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.0M Sep  1 14:30 gen-word-2075-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14201/15423 [12:13:49<1:03:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14201/15423 [12:13:49<1:03:08,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.0M Sep  1 14:30 gen-word-2080-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14202/15423 [12:13:53<1:03:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14202/15423 [12:13:53<1:03:05,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.0M Sep  1 14:30 gen-word-2085-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14203/15423 [12:13:57<1:03:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14203/15423 [12:13:57<1:03:02,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.0M Sep  1 14:30 gen-word-2090-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14204/15423 [12:13:59<1:02:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14204/15423 [12:13:59<1:02:59,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.0M Sep  1 14:30 gen-word-2095-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14205/15423 [12:14:03<1:02:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14205/15423 [12:14:03<1:02:56,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  218K Sep  1 14:30 gen-word-210-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14206/15423 [12:14:05<1:02:53,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14206/15423 [12:14:05<1:02:53,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.1M Sep  1 14:30 gen-word-2100-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14207/15423 [12:14:07<1:02:50,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14207/15423 [12:14:07<1:02:50,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.1M Sep  1 14:30 gen-word-2105-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14208/15423 [12:14:21<1:02:47,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14208/15423 [12:14:21<1:02:47,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.1M Sep  1 14:30 gen-word-2110-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14209/15423 [12:14:24<1:02:44,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14209/15423 [12:14:24<1:02:44,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.1M Sep  1 14:30 gen-word-2115-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14210/15423 [12:14:27<1:02:41,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14210/15423 [12:14:27<1:02:41,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.1M Sep  1 14:30 gen-word-2120-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14211/15423 [12:14:30<1:02:38,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14211/15423 [12:14:30<1:02:38,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.1M Sep  1 14:30 gen-word-2125-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14212/15423 [12:14:34<1:02:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14212/15423 [12:14:34<1:02:35,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.1M Sep  1 14:30 gen-word-2130-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14213/15423 [12:14:37<1:02:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14213/15423 [12:14:37<1:02:32,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.1M Sep  1 14:30 gen-word-2135-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14214/15423 [12:14:39<1:02:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14214/15423 [12:14:39<1:02:29,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.1M Sep  1 14:30 gen-word-2140-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14215/15423 [12:14:41<1:02:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14215/15423 [12:14:41<1:02:26,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.2M Sep  1 14:30 gen-word-2145-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14216/15423 [12:14:43<1:02:22,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14216/15423 [12:14:43<1:02:22,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  221K Sep  1 14:30 gen-word-215-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14217/15423 [12:14:45<1:02:19,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14217/15423 [12:14:45<1:02:19,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.2M Sep  1 14:30 gen-word-2150-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14218/15423 [12:14:47<1:02:16,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14218/15423 [12:14:47<1:02:16,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.1M Sep  1 14:30 gen-word-2155-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14219/15423 [12:14:48<1:02:13,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14219/15423 [12:14:48<1:02:13,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.2M Sep  1 14:30 gen-word-2160-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14220/15423 [12:14:51<1:02:10,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14220/15423 [12:14:51<1:02:10,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.2M Sep  1 14:30 gen-word-2165-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14221/15423 [12:14:54<1:02:06,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14221/15423 [12:14:54<1:02:06,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.2M Sep  1 14:30 gen-word-2170-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14222/15423 [12:14:57<1:02:03,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14222/15423 [12:14:57<1:02:03,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.2M Sep  1 14:30 gen-word-2175-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14223/15423 [12:15:02<1:02:00,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14223/15423 [12:15:02<1:02:00,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.2M Sep  1 14:30 gen-word-2180-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14224/15423 [12:15:04<1:01:57,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14224/15423 [12:15:04<1:01:57,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.2M Sep  1 14:30 gen-word-2185-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14225/15423 [12:15:08<1:01:54,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14225/15423 [12:15:08<1:01:54,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.2M Sep  1 14:30 gen-word-2190-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14226/15423 [12:15:12<1:01:51,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14226/15423 [12:15:12<1:01:51,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.2M Sep  1 14:30 gen-word-2195-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14227/15423 [12:15:16<1:01:48,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14227/15423 [12:15:16<1:01:48,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  228K Sep  1 14:30 gen-word-220-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14228/15423 [12:15:17<1:01:45,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14228/15423 [12:15:17<1:01:45,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.3M Sep  1 14:30 gen-word-2200-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14229/15423 [12:15:20<1:01:42,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14229/15423 [12:15:20<1:01:42,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.3M Sep  1 14:30 gen-word-2205-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14230/15423 [12:15:22<1:01:39,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14230/15423 [12:15:22<1:01:39,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.3M Sep  1 14:30 gen-word-2210-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14231/15423 [12:15:25<1:01:35,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14231/15423 [12:15:25<1:01:35,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.2M Sep  1 14:30 gen-word-2215-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14232/15423 [12:15:28<1:01:32,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14232/15423 [12:15:28<1:01:32,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.3M Sep  1 14:30 gen-word-2220-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14233/15423 [12:15:29<1:01:29,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14233/15423 [12:15:29<1:01:29,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.3M Sep  1 14:30 gen-word-2225-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14234/15423 [12:15:33<1:01:26,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14234/15423 [12:15:33<1:01:26,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.3M Sep  1 14:30 gen-word-2230-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14235/15423 [12:15:35<1:01:23,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14235/15423 [12:15:35<1:01:23,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.3M Sep  1 14:30 gen-word-2235-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14236/15423 [12:15:39<1:01:20,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14236/15423 [12:15:39<1:01:20,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.3M Sep  1 14:30 gen-word-2240-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14237/15423 [12:15:44<1:01:17,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14237/15423 [12:15:44<1:01:17,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.3M Sep  1 14:30 gen-word-2245-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14238/15423 [12:15:44<1:01:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14238/15423 [12:15:44<1:01:14,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  230K Sep  1 14:30 gen-word-225-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14239/15423 [12:15:49<1:01:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14239/15423 [12:15:49<1:01:11,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.4M Sep  1 14:30 gen-word-2250-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14240/15423 [12:16:02<1:01:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14240/15423 [12:16:02<1:01:08,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.4M Sep  1 14:30 gen-word-2255-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14241/15423 [12:16:04<1:01:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14241/15423 [12:16:04<1:01:05,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.3M Sep  1 14:30 gen-word-2260-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14242/15423 [12:16:07<1:01:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14242/15423 [12:16:07<1:01:02,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.4M Sep  1 14:30 gen-word-2265-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14243/15423 [12:16:09<1:00:59,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14243/15423 [12:16:09<1:00:59,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.4M Sep  1 14:30 gen-word-2270-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14244/15423 [12:16:12<1:00:56,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14244/15423 [12:16:12<1:00:56,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.4M Sep  1 14:30 gen-word-2275-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14245/15423 [12:16:13<1:00:52,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14245/15423 [12:16:13<1:00:52,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.4M Sep  1 14:30 gen-word-2280-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14246/15423 [12:16:15<1:00:49,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14246/15423 [12:16:15<1:00:49,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.4M Sep  1 14:30 gen-word-2285-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14247/15423 [12:16:18<1:00:46,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14247/15423 [12:16:18<1:00:46,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.4M Sep  1 14:30 gen-word-2290-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14248/15423 [12:16:21<1:00:43,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14248/15423 [12:16:21<1:00:43,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.4M Sep  1 14:30 gen-word-2295-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14249/15423 [12:16:22<1:00:40,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14249/15423 [12:16:22<1:00:40,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  236K Sep  1 14:30 gen-word-230-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14250/15423 [12:16:26<1:00:37,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14250/15423 [12:16:26<1:00:37,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.4M Sep  1 14:30 gen-word-2300-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14251/15423 [12:16:27<1:00:33,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14251/15423 [12:16:27<1:00:33,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.4M Sep  1 14:30 gen-word-2305-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14252/15423 [12:16:28<1:00:30,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14252/15423 [12:16:28<1:00:30,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.5M Sep  1 14:30 gen-word-2310-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14253/15423 [12:16:30<1:00:27,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14253/15423 [12:16:30<1:00:27,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.5M Sep  1 14:30 gen-word-2315-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14254/15423 [12:16:31<1:00:24,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14254/15423 [12:16:31<1:00:24,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.5M Sep  1 14:30 gen-word-2320-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14255/15423 [12:16:33<1:00:21,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14255/15423 [12:16:33<1:00:21,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.5M Sep  1 14:30 gen-word-2325-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14256/15423 [12:16:37<1:00:18,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14256/15423 [12:16:37<1:00:18,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.5M Sep  1 14:30 gen-word-2330-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14257/15423 [12:16:37<1:00:14,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14257/15423 [12:16:37<1:00:14,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.5M Sep  1 14:30 gen-word-2335-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14258/15423 [12:16:41<1:00:11,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14258/15423 [12:16:41<1:00:11,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.5M Sep  1 14:30 gen-word-2340-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14259/15423 [12:16:44<1:00:08,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14259/15423 [12:16:44<1:00:08,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.5M Sep  1 14:30 gen-word-2345-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14260/15423 [12:16:47<1:00:05,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14260/15423 [12:16:47<1:00:05,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  240K Sep  1 14:30 gen-word-235-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14261/15423 [12:16:49<1:00:02,  3.10s/it, v_num=ufwn, train/los\r",
-      "Epoch 0:  92%|▉| 14261/15423 [12:16:49<1:00:02,  3.10s/it, v_num=ufwn, train/los"
+      "-rw-r--r--  1 root root  4.5M Sep  1 14:30 gen-word-2350-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14262/15423 [12:16:50<59:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  92%|▉| 14262/15423 [12:16:50<59:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.5M Sep  1 14:30 gen-word-2355-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14263/15423 [12:16:51<59:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  92%|▉| 14263/15423 [12:16:51<59:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.6M Sep  1 14:30 gen-word-2360-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14264/15423 [12:16:55<59:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  92%|▉| 14264/15423 [12:16:55<59:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.6M Sep  1 14:30 gen-word-2365-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14265/15423 [12:17:00<59:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  92%|▉| 14265/15423 [12:17:00<59:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.6M Sep  1 14:30 gen-word-2370-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  92%|▉| 14266/15423 [12:17:02<59:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  92%|▉| 14266/15423 [12:17:02<59:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.6M Sep  1 14:30 gen-word-2375-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14267/15423 [12:17:03<59:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14267/15423 [12:17:03<59:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.6M Sep  1 14:30 gen-word-2380-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14268/15423 [12:17:06<59:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14268/15423 [12:17:06<59:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.6M Sep  1 14:30 gen-word-2385-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14269/15423 [12:17:08<59:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14269/15423 [12:17:08<59:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.6M Sep  1 14:30 gen-word-2390-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14270/15423 [12:17:12<59:33,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.6M Sep  1 14:30 gen-word-2395-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14270/15423 [12:17:12<59:33,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  249K Sep  1 14:30 gen-word-240-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14271/15423 [12:17:15<59:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14271/15423 [12:17:15<59:30,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.6M Sep  1 14:30 gen-word-2400-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14272/15423 [12:17:38<59:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14272/15423 [12:17:38<59:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.6M Sep  1 14:30 gen-word-2405-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14273/15423 [12:17:38<59:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14273/15423 [12:17:38<59:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.6M Sep  1 14:30 gen-word-2410-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14274/15423 [12:17:41<59:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14274/15423 [12:17:41<59:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.7M Sep  1 14:30 gen-word-2415-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14275/15423 [12:17:42<59:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14275/15423 [12:17:42<59:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.7M Sep  1 14:30 gen-word-2420-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14276/15423 [12:17:46<59:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14276/15423 [12:17:46<59:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.7M Sep  1 14:30 gen-word-2425-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14277/15423 [12:17:48<59:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14277/15423 [12:17:48<59:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.7M Sep  1 14:30 gen-word-2430-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14278/15423 [12:17:52<59:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14278/15423 [12:17:52<59:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.7M Sep  1 14:30 gen-word-2435-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14279/15423 [12:17:54<59:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14279/15423 [12:17:54<59:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.7M Sep  1 14:30 gen-word-2440-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14280/15423 [12:17:56<59:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14280/15423 [12:17:56<59:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.7M Sep  1 14:30 gen-word-2445-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14281/15423 [12:17:58<59:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14281/15423 [12:17:58<59:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  248K Sep  1 14:30 gen-word-245-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14282/15423 [12:17:59<58:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14282/15423 [12:17:59<58:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.7M Sep  1 14:30 gen-word-2450-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14283/15423 [12:17:59<58:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14283/15423 [12:17:59<58:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.7M Sep  1 14:30 gen-word-2455-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14284/15423 [12:18:03<58:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14284/15423 [12:18:03<58:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.7M Sep  1 14:30 gen-word-2460-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14285/15423 [12:18:04<58:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14285/15423 [12:18:04<58:47,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.8M Sep  1 14:30 gen-word-2465-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14286/15423 [12:18:05<58:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14286/15423 [12:18:05<58:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.8M Sep  1 14:30 gen-word-2470-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14287/15423 [12:18:07<58:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14287/15423 [12:18:07<58:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.8M Sep  1 14:30 gen-word-2475-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14288/15423 [12:18:09<58:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14288/15423 [12:18:09<58:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.8M Sep  1 14:30 gen-word-2480-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14289/15423 [12:18:10<58:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14289/15423 [12:18:10<58:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.8M Sep  1 14:30 gen-word-2485-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14290/15423 [12:18:12<58:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14290/15423 [12:18:12<58:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.8M Sep  1 14:30 gen-word-2490-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14291/15423 [12:18:15<58:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14291/15423 [12:18:15<58:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.8M Sep  1 14:30 gen-word-2495-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14292/15423 [12:18:19<58:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14292/15423 [12:18:19<58:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   34K Sep  1 14:30 gen-word-25-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14293/15423 [12:18:21<58:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14293/15423 [12:18:21<58:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  255K Sep  1 14:30 gen-word-250-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14294/15423 [12:18:25<58:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14294/15423 [12:18:25<58:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.8M Sep  1 14:30 gen-word-2500-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14295/15423 [12:18:28<58:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14295/15423 [12:18:28<58:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.8M Sep  1 14:30 gen-word-2505-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14296/15423 [12:18:32<58:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14296/15423 [12:18:32<58:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.8M Sep  1 14:30 gen-word-2510-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14297/15423 [12:18:36<58:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14297/15423 [12:18:36<58:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.8M Sep  1 14:30 gen-word-2515-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14298/15423 [12:18:37<58:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.9M Sep  1 14:30 gen-word-2520-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14298/15423 [12:18:37<58:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.9M Sep  1 14:30 gen-word-2525-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14299/15423 [12:18:41<58:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.9M Sep  1 14:30 gen-word-2530-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14299/15423 [12:18:41<58:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.9M Sep  1 14:30 gen-word-2535-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14300/15423 [12:18:43<58:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14300/15423 [12:18:43<58:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.9M Sep  1 14:30 gen-word-2540-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14301/15423 [12:18:45<57:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14301/15423 [12:18:45<57:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.9M Sep  1 14:30 gen-word-2545-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14302/15423 [12:18:47<57:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14302/15423 [12:18:47<57:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  259K Sep  1 14:30 gen-word-255-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14303/15423 [12:18:52<57:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14303/15423 [12:18:52<57:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.9M Sep  1 14:30 gen-word-2550-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14304/15423 [12:19:13<57:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14304/15423 [12:19:13<57:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.9M Sep  1 14:30 gen-word-2555-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14305/15423 [12:19:14<57:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14305/15423 [12:19:14<57:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.9M Sep  1 14:30 gen-word-2560-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14306/15423 [12:19:17<57:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14306/15423 [12:19:17<57:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  4.9M Sep  1 14:30 gen-word-2565-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14307/15423 [12:19:21<57:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14307/15423 [12:19:21<57:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.0M Sep  1 14:30 gen-word-2570-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14308/15423 [12:19:23<57:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14308/15423 [12:19:23<57:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.0M Sep  1 14:30 gen-word-2575-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14309/15423 [12:19:28<57:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14309/15423 [12:19:28<57:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.0M Sep  1 14:30 gen-word-2580-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14310/15423 [12:19:30<57:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.0M Sep  1 14:30 gen-word-2585-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14310/15423 [12:19:30<57:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.0M Sep  1 14:30 gen-word-2590-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14311/15423 [12:19:34<57:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14311/15423 [12:19:34<57:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.0M Sep  1 14:30 gen-word-2595-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14312/15423 [12:19:36<57:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14312/15423 [12:19:36<57:24,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  266K Sep  1 14:30 gen-word-260-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14313/15423 [12:19:39<57:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14313/15423 [12:19:39<57:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.0M Sep  1 14:30 gen-word-2600-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14314/15423 [12:19:41<57:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14314/15423 [12:19:41<57:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.0M Sep  1 14:30 gen-word-2605-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14315/15423 [12:19:42<57:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14315/15423 [12:19:42<57:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.0M Sep  1 14:30 gen-word-2610-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14316/15423 [12:19:45<57:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14316/15423 [12:19:45<57:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.0M Sep  1 14:30 gen-word-2615-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14317/15423 [12:19:49<57:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14317/15423 [12:19:49<57:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.1M Sep  1 14:30 gen-word-2620-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14318/15423 [12:19:52<57:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14318/15423 [12:19:52<57:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.0M Sep  1 14:30 gen-word-2625-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14319/15423 [12:19:55<57:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14319/15423 [12:19:55<57:02,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.1M Sep  1 14:30 gen-word-2630-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14320/15423 [12:19:58<56:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14320/15423 [12:19:58<56:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.1M Sep  1 14:30 gen-word-2635-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14321/15423 [12:20:02<56:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14321/15423 [12:20:02<56:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.1M Sep  1 14:30 gen-word-2640-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14322/15423 [12:20:04<56:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14322/15423 [12:20:04<56:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.1M Sep  1 14:30 gen-word-2645-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14323/15423 [12:20:06<56:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14323/15423 [12:20:06<56:50,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  269K Sep  1 14:30 gen-word-265-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14324/15423 [12:20:09<56:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14324/15423 [12:20:09<56:47,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.1M Sep  1 14:30 gen-word-2650-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14325/15423 [12:20:12<56:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14325/15423 [12:20:12<56:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.1M Sep  1 14:30 gen-word-2655-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14326/15423 [12:20:15<56:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14326/15423 [12:20:15<56:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.1M Sep  1 14:30 gen-word-2660-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14327/15423 [12:20:17<56:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14327/15423 [12:20:17<56:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.1M Sep  1 14:30 gen-word-2665-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14328/15423 [12:20:19<56:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14328/15423 [12:20:19<56:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.1M Sep  1 14:30 gen-word-2670-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14329/15423 [12:20:23<56:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14329/15423 [12:20:23<56:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.1M Sep  1 14:30 gen-word-2675-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14330/15423 [12:20:27<56:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14330/15423 [12:20:27<56:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.2M Sep  1 14:30 gen-word-2680-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14331/15423 [12:20:29<56:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14331/15423 [12:20:29<56:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.2M Sep  1 14:30 gen-word-2685-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14332/15423 [12:20:30<56:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14332/15423 [12:20:30<56:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.2M Sep  1 14:30 gen-word-2690-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14333/15423 [12:20:31<56:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14333/15423 [12:20:31<56:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.2M Sep  1 14:30 gen-word-2695-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14334/15423 [12:20:35<56:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14334/15423 [12:20:35<56:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  276K Sep  1 14:30 gen-word-270-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14335/15423 [12:20:37<56:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14335/15423 [12:20:37<56:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.2M Sep  1 14:30 gen-word-2700-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14336/15423 [12:20:55<56:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14336/15423 [12:20:55<56:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.2M Sep  1 14:30 gen-word-2705-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14337/15423 [12:20:56<56:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14337/15423 [12:20:56<56:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.2M Sep  1 14:30 gen-word-2710-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14338/15423 [12:20:58<56:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14338/15423 [12:20:58<56:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.2M Sep  1 14:30 gen-word-2715-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14339/15423 [12:21:02<56:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14339/15423 [12:21:02<56:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.2M Sep  1 14:30 gen-word-2720-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14340/15423 [12:21:04<55:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14340/15423 [12:21:04<55:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.2M Sep  1 14:30 gen-word-2725-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14341/15423 [12:21:07<55:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14341/15423 [12:21:07<55:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.3M Sep  1 14:30 gen-word-2730-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14342/15423 [12:21:08<55:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.3M Sep  1 14:30 gen-word-2735-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14342/15423 [12:21:08<55:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.3M Sep  1 14:30 gen-word-2740-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14343/15423 [12:21:12<55:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14343/15423 [12:21:12<55:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.3M Sep  1 14:30 gen-word-2745-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14344/15423 [12:21:13<55:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14344/15423 [12:21:13<55:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  277K Sep  1 14:30 gen-word-275-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14345/15423 [12:21:17<55:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14345/15423 [12:21:17<55:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.3M Sep  1 14:30 gen-word-2750-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14346/15423 [12:21:19<55:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14346/15423 [12:21:19<55:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.3M Sep  1 14:30 gen-word-2755-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14347/15423 [12:21:24<55:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14347/15423 [12:21:24<55:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.3M Sep  1 14:30 gen-word-2760-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14348/15423 [12:21:28<55:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14348/15423 [12:21:28<55:33,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.3M Sep  1 14:30 gen-word-2765-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14349/15423 [12:21:31<55:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14349/15423 [12:21:31<55:30,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.3M Sep  1 14:30 gen-word-2770-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14350/15423 [12:21:34<55:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14350/15423 [12:21:34<55:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.3M Sep  1 14:30 gen-word-2775-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14351/15423 [12:21:39<55:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14351/15423 [12:21:39<55:24,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.4M Sep  1 14:30 gen-word-2780-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14352/15423 [12:21:43<55:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14352/15423 [12:21:43<55:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.4M Sep  1 14:30 gen-word-2785-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14353/15423 [12:21:43<55:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14353/15423 [12:21:43<55:17,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.3M Sep  1 14:30 gen-word-2790-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14354/15423 [12:21:47<55:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14354/15423 [12:21:47<55:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.4M Sep  1 14:30 gen-word-2795-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14355/15423 [12:21:49<55:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14355/15423 [12:21:49<55:11,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  281K Sep  1 14:30 gen-word-280-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14356/15423 [12:21:52<55:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14356/15423 [12:21:52<55:08,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.4M Sep  1 14:30 gen-word-2800-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14357/15423 [12:21:56<55:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14357/15423 [12:21:56<55:05,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.4M Sep  1 14:30 gen-word-2805-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14358/15423 [12:21:59<55:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14358/15423 [12:21:59<55:02,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.4M Sep  1 14:30 gen-word-2810-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14359/15423 [12:22:02<54:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14359/15423 [12:22:02<54:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.4M Sep  1 14:30 gen-word-2815-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14360/15423 [12:22:05<54:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14360/15423 [12:22:05<54:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.4M Sep  1 14:30 gen-word-2820-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14361/15423 [12:22:08<54:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14361/15423 [12:22:08<54:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.4M Sep  1 14:30 gen-word-2825-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14362/15423 [12:22:09<54:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14362/15423 [12:22:09<54:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.4M Sep  1 14:30 gen-word-2830-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14363/15423 [12:22:11<54:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14363/15423 [12:22:11<54:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.5M Sep  1 14:30 gen-word-2835-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14364/15423 [12:22:14<54:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14364/15423 [12:22:14<54:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.5M Sep  1 14:30 gen-word-2840-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14365/15423 [12:22:18<54:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14365/15423 [12:22:18<54:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.5M Sep  1 14:30 gen-word-2845-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14366/15423 [12:22:19<54:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  286K Sep  1 14:30 gen-word-285-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14366/15423 [12:22:19<54:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.5M Sep  1 14:30 gen-word-2850-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14367/15423 [12:22:20<54:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14367/15423 [12:22:20<54:33,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.5M Sep  1 14:30 gen-word-2855-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14368/15423 [12:22:32<54:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14368/15423 [12:22:32<54:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.5M Sep  1 14:30 gen-word-2860-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14369/15423 [12:22:36<54:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14369/15423 [12:22:36<54:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.5M Sep  1 14:30 gen-word-2865-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14370/15423 [12:22:39<54:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14370/15423 [12:22:39<54:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.5M Sep  1 14:30 gen-word-2870-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14371/15423 [12:22:41<54:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14371/15423 [12:22:41<54:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.5M Sep  1 14:30 gen-word-2875-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14372/15423 [12:22:44<54:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14372/15423 [12:22:44<54:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.6M Sep  1 14:30 gen-word-2880-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14373/15423 [12:22:47<54:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14373/15423 [12:22:47<54:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.5M Sep  1 14:30 gen-word-2885-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14374/15423 [12:22:49<54:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14374/15423 [12:22:49<54:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.5M Sep  1 14:30 gen-word-2890-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14375/15423 [12:22:51<54:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14375/15423 [12:22:51<54:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.5M Sep  1 14:30 gen-word-2895-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14376/15423 [12:22:52<54:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14376/15423 [12:22:52<54:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  295K Sep  1 14:30 gen-word-290-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14377/15423 [12:22:55<54:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14377/15423 [12:22:55<54:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.6M Sep  1 14:30 gen-word-2900-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14378/15423 [12:22:57<53:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14378/15423 [12:22:57<53:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.6M Sep  1 14:30 gen-word-2905-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14379/15423 [12:22:59<53:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14379/15423 [12:22:59<53:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.6M Sep  1 14:30 gen-word-2910-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14380/15423 [12:23:03<53:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14380/15423 [12:23:03<53:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.6M Sep  1 14:30 gen-word-2915-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14381/15423 [12:23:06<53:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14381/15423 [12:23:06<53:50,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.6M Sep  1 14:30 gen-word-2920-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14382/15423 [12:23:09<53:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14382/15423 [12:23:09<53:47,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.6M Sep  1 14:30 gen-word-2925-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14383/15423 [12:23:10<53:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14383/15423 [12:23:10<53:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.6M Sep  1 14:30 gen-word-2930-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14384/15423 [12:23:14<53:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14384/15423 [12:23:14<53:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.6M Sep  1 14:30 gen-word-2935-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14385/15423 [12:23:16<53:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14385/15423 [12:23:16<53:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.7M Sep  1 14:30 gen-word-2940-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14386/15423 [12:23:17<53:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14386/15423 [12:23:17<53:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.6M Sep  1 14:30 gen-word-2945-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14387/15423 [12:23:20<53:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14387/15423 [12:23:20<53:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  295K Sep  1 14:30 gen-word-295-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14388/15423 [12:23:24<53:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14388/15423 [12:23:24<53:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.7M Sep  1 14:30 gen-word-2950-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14389/15423 [12:23:29<53:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14389/15423 [12:23:29<53:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.7M Sep  1 14:30 gen-word-2955-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14390/15423 [12:23:32<53:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14390/15423 [12:23:32<53:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.7M Sep  1 14:30 gen-word-2960-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14391/15423 [12:23:33<53:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14391/15423 [12:23:33<53:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.7M Sep  1 14:30 gen-word-2965-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14392/15423 [12:23:34<53:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14392/15423 [12:23:34<53:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.7M Sep  1 14:30 gen-word-2970-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14393/15423 [12:23:36<53:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14393/15423 [12:23:36<53:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.7M Sep  1 14:30 gen-word-2975-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14394/15423 [12:23:40<53:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14394/15423 [12:23:40<53:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.7M Sep  1 14:30 gen-word-2980-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14395/15423 [12:23:41<53:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14395/15423 [12:23:41<53:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.7M Sep  1 14:30 gen-word-2985-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14396/15423 [12:23:43<53:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14396/15423 [12:23:43<53:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.7M Sep  1 14:30 gen-word-2990-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14397/15423 [12:23:46<53:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14397/15423 [12:23:46<53:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.8M Sep  1 14:30 gen-word-2995-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14398/15423 [12:23:50<52:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14398/15423 [12:23:50<52:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   39K Sep  1 14:30 gen-word-30-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14399/15423 [12:23:51<52:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14399/15423 [12:23:51<52:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  303K Sep  1 14:30 gen-word-300-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14400/15423 [12:24:12<52:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14400/15423 [12:24:12<52:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.8M Sep  1 14:30 gen-word-3000-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14401/15423 [12:24:38<52:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14401/15423 [12:24:38<52:50,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.8M Sep  1 14:30 gen-word-3005-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14402/15423 [12:24:38<52:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14402/15423 [12:24:38<52:47,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.8M Sep  1 14:30 gen-word-3010-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14403/15423 [12:24:42<52:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14403/15423 [12:24:42<52:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.8M Sep  1 14:30 gen-word-3015-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14404/15423 [12:24:46<52:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14404/15423 [12:24:46<52:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.8M Sep  1 14:30 gen-word-3020-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14405/15423 [12:24:48<52:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14405/15423 [12:24:48<52:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.8M Sep  1 14:30 gen-word-3025-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14406/15423 [12:24:51<52:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14406/15423 [12:24:51<52:35,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.8M Sep  1 14:30 gen-word-3030-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14407/15423 [12:24:52<52:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14407/15423 [12:24:52<52:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.8M Sep  1 14:30 gen-word-3035-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14408/15423 [12:24:56<52:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14408/15423 [12:24:56<52:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.8M Sep  1 14:30 gen-word-3040-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14409/15423 [12:24:59<52:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14409/15423 [12:24:59<52:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.8M Sep  1 14:30 gen-word-3045-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14410/15423 [12:25:02<52:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14410/15423 [12:25:02<52:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  312K Sep  1 14:30 gen-word-305-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14411/15423 [12:25:05<52:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14411/15423 [12:25:05<52:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.9M Sep  1 14:30 gen-word-3050-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14412/15423 [12:25:10<52:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14412/15423 [12:25:10<52:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.9M Sep  1 14:30 gen-word-3055-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14413/15423 [12:25:11<52:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14413/15423 [12:25:11<52:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.9M Sep  1 14:30 gen-word-3060-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14414/15423 [12:25:15<52:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14414/15423 [12:25:15<52:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.9M Sep  1 14:30 gen-word-3065-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14415/15423 [12:25:18<52:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14415/15423 [12:25:18<52:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.9M Sep  1 14:30 gen-word-3070-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14416/15423 [12:25:22<52:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14416/15423 [12:25:22<52:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.9M Sep  1 14:30 gen-word-3075-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14417/15423 [12:25:23<52:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.9M Sep  1 14:30 gen-word-3080-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14417/15423 [12:25:23<52:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.9M Sep  1 14:30 gen-word-3085-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14418/15423 [12:25:27<51:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14418/15423 [12:25:27<51:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  5.9M Sep  1 14:30 gen-word-3090-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14419/15423 [12:25:28<51:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  93%|▉| 14419/15423 [12:25:28<51:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.0M Sep  1 14:30 gen-word-3095-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14420/15423 [12:25:31<51:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  310K Sep  1 14:30 gen-word-310-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  93%|▉| 14420/15423 [12:25:31<51:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.0M Sep  1 14:30 gen-word-3100-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14421/15423 [12:25:33<51:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14421/15423 [12:25:33<51:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.0M Sep  1 14:30 gen-word-3105-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14422/15423 [12:25:35<51:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14422/15423 [12:25:35<51:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.0M Sep  1 14:30 gen-word-3110-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14423/15423 [12:25:37<51:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14423/15423 [12:25:37<51:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.0M Sep  1 14:30 gen-word-3115-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14424/15423 [12:25:41<51:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14424/15423 [12:25:41<51:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.0M Sep  1 14:30 gen-word-3120-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14425/15423 [12:25:43<51:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14425/15423 [12:25:43<51:35,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.0M Sep  1 14:30 gen-word-3125-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14426/15423 [12:25:46<51:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14426/15423 [12:25:46<51:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.0M Sep  1 14:30 gen-word-3130-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14427/15423 [12:25:47<51:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14427/15423 [12:25:47<51:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.0M Sep  1 14:30 gen-word-3135-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14428/15423 [12:25:49<51:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14428/15423 [12:25:49<51:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.0M Sep  1 14:30 gen-word-3140-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14429/15423 [12:25:52<51:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14429/15423 [12:25:52<51:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.0M Sep  1 14:30 gen-word-3145-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14430/15423 [12:25:55<51:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14430/15423 [12:25:55<51:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  315K Sep  1 14:30 gen-word-315-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14431/15423 [12:25:58<51:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14431/15423 [12:25:58<51:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.1M Sep  1 14:30 gen-word-3150-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14432/15423 [12:26:17<51:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14432/15423 [12:26:17<51:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.1M Sep  1 14:30 gen-word-3155-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14433/15423 [12:26:18<51:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14433/15423 [12:26:18<51:11,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.1M Sep  1 14:30 gen-word-3160-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14434/15423 [12:26:19<51:08,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.1M Sep  1 14:30 gen-word-3165-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14434/15423 [12:26:19<51:08,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.1M Sep  1 14:30 gen-word-3170-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14435/15423 [12:26:20<51:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14435/15423 [12:26:20<51:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.1M Sep  1 14:30 gen-word-3175-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14436/15423 [12:26:22<51:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14436/15423 [12:26:22<51:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.1M Sep  1 14:30 gen-word-3180-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14437/15423 [12:26:26<50:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14437/15423 [12:26:26<50:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.1M Sep  1 14:30 gen-word-3185-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14438/15423 [12:26:28<50:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14438/15423 [12:26:28<50:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.1M Sep  1 14:30 gen-word-3190-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14439/15423 [12:26:29<50:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.1M Sep  1 14:30 gen-word-3195-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14439/15423 [12:26:29<50:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  316K Sep  1 14:30 gen-word-320-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14440/15423 [12:26:31<50:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14440/15423 [12:26:31<50:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.1M Sep  1 14:30 gen-word-3200-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14441/15423 [12:26:35<50:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14441/15423 [12:26:35<50:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.2M Sep  1 14:30 gen-word-3205-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14442/15423 [12:26:40<50:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14442/15423 [12:26:40<50:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.1M Sep  1 14:30 gen-word-3210-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14443/15423 [12:26:44<50:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14443/15423 [12:26:44<50:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.2M Sep  1 14:30 gen-word-3215-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14444/15423 [12:26:49<50:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14444/15423 [12:26:49<50:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.2M Sep  1 14:30 gen-word-3220-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14445/15423 [12:26:52<50:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14445/15423 [12:26:52<50:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.2M Sep  1 14:30 gen-word-3225-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14446/15423 [12:26:54<50:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14446/15423 [12:26:54<50:30,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.2M Sep  1 14:30 gen-word-3230-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14447/15423 [12:26:54<50:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14447/15423 [12:26:54<50:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.2M Sep  1 14:30 gen-word-3235-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14448/15423 [12:26:58<50:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14448/15423 [12:26:58<50:24,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.2M Sep  1 14:30 gen-word-3240-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14449/15423 [12:27:02<50:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14449/15423 [12:27:02<50:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.2M Sep  1 14:30 gen-word-3245-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14450/15423 [12:27:03<50:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14450/15423 [12:27:03<50:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  324K Sep  1 14:30 gen-word-325-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14451/15423 [12:27:04<50:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14451/15423 [12:27:04<50:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.3M Sep  1 14:30 gen-word-3250-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14452/15423 [12:27:08<50:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14452/15423 [12:27:08<50:11,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.3M Sep  1 14:30 gen-word-3255-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14453/15423 [12:27:10<50:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14453/15423 [12:27:10<50:08,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.3M Sep  1 14:30 gen-word-3260-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14454/15423 [12:27:12<50:05,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.3M Sep  1 14:30 gen-word-3265-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14454/15423 [12:27:12<50:05,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.3M Sep  1 14:30 gen-word-3270-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14455/15423 [12:27:15<50:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14455/15423 [12:27:15<50:02,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.3M Sep  1 14:30 gen-word-3275-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14456/15423 [12:27:17<49:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14456/15423 [12:27:17<49:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.3M Sep  1 14:30 gen-word-3280-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14457/15423 [12:27:21<49:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14457/15423 [12:27:21<49:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.3M Sep  1 14:30 gen-word-3285-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14458/15423 [12:27:24<49:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.4M Sep  1 14:30 gen-word-3290-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14458/15423 [12:27:24<49:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.3M Sep  1 14:30 gen-word-3295-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14459/15423 [12:27:28<49:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14459/15423 [12:27:28<49:50,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  336K Sep  1 14:30 gen-word-330-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14460/15423 [12:27:33<49:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14460/15423 [12:27:33<49:47,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.3M Sep  1 14:30 gen-word-3300-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14461/15423 [12:27:36<49:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14461/15423 [12:27:36<49:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.3M Sep  1 14:30 gen-word-3305-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14462/15423 [12:27:40<49:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14462/15423 [12:27:40<49:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.3M Sep  1 14:30 gen-word-3310-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14463/15423 [12:27:41<49:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14463/15423 [12:27:41<49:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.4M Sep  1 14:30 gen-word-3315-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14464/15423 [12:27:58<49:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14464/15423 [12:27:58<49:35,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.4M Sep  1 14:30 gen-word-3320-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14465/15423 [12:28:00<49:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14465/15423 [12:28:00<49:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.3M Sep  1 14:30 gen-word-3325-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14466/15423 [12:28:01<49:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14466/15423 [12:28:01<49:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.4M Sep  1 14:30 gen-word-3330-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14467/15423 [12:28:05<49:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14467/15423 [12:28:05<49:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.4M Sep  1 14:30 gen-word-3335-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14468/15423 [12:28:09<49:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14468/15423 [12:28:09<49:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.4M Sep  1 14:30 gen-word-3340-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14469/15423 [12:28:11<49:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14469/15423 [12:28:11<49:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.4M Sep  1 14:30 gen-word-3345-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14470/15423 [12:28:11<49:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14470/15423 [12:28:11<49:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  340K Sep  1 14:30 gen-word-335-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14471/15423 [12:28:15<49:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14471/15423 [12:28:15<49:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.5M Sep  1 14:30 gen-word-3350-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14472/15423 [12:28:17<49:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14472/15423 [12:28:17<49:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.4M Sep  1 14:30 gen-word-3355-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14473/15423 [12:28:22<49:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14473/15423 [12:28:22<49:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.4M Sep  1 14:30 gen-word-3360-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14474/15423 [12:28:26<49:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14474/15423 [12:28:26<49:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.5M Sep  1 14:30 gen-word-3365-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14475/15423 [12:28:30<49:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14475/15423 [12:28:30<49:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.4M Sep  1 14:30 gen-word-3370-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14476/15423 [12:28:33<48:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14476/15423 [12:28:33<48:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.5M Sep  1 14:30 gen-word-3375-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14477/15423 [12:28:36<48:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14477/15423 [12:28:36<48:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.5M Sep  1 14:30 gen-word-3380-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14478/15423 [12:28:39<48:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14478/15423 [12:28:39<48:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.5M Sep  1 14:30 gen-word-3385-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14479/15423 [12:28:43<48:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14479/15423 [12:28:43<48:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.5M Sep  1 14:30 gen-word-3390-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14480/15423 [12:28:46<48:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14480/15423 [12:28:46<48:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.5M Sep  1 14:30 gen-word-3395-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14481/15423 [12:28:48<48:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14481/15423 [12:28:48<48:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  347K Sep  1 14:30 gen-word-340-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14482/15423 [12:28:49<48:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14482/15423 [12:28:49<48:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.5M Sep  1 14:30 gen-word-3400-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14483/15423 [12:28:51<48:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14483/15423 [12:28:51<48:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.5M Sep  1 14:30 gen-word-3405-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14484/15423 [12:28:52<48:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14484/15423 [12:28:52<48:33,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.5M Sep  1 14:30 gen-word-3410-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14485/15423 [12:28:55<48:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14485/15423 [12:28:55<48:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.6M Sep  1 14:30 gen-word-3415-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14486/15423 [12:28:58<48:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14486/15423 [12:28:58<48:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.5M Sep  1 14:30 gen-word-3420-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14487/15423 [12:29:00<48:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14487/15423 [12:29:00<48:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.6M Sep  1 14:30 gen-word-3425-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14488/15423 [12:29:02<48:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14488/15423 [12:29:02<48:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.6M Sep  1 14:30 gen-word-3430-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14489/15423 [12:29:05<48:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14489/15423 [12:29:05<48:17,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.6M Sep  1 14:30 gen-word-3435-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14490/15423 [12:29:05<48:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14490/15423 [12:29:05<48:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.6M Sep  1 14:30 gen-word-3440-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14491/15423 [12:29:08<48:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.6M Sep  1 14:30 gen-word-3445-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14491/15423 [12:29:08<48:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  350K Sep  1 14:30 gen-word-345-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14492/15423 [12:29:12<48:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14492/15423 [12:29:12<48:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.6M Sep  1 14:30 gen-word-3450-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14493/15423 [12:29:15<48:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14493/15423 [12:29:15<48:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.6M Sep  1 14:30 gen-word-3455-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14494/15423 [12:29:17<48:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14494/15423 [12:29:17<48:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.6M Sep  1 14:30 gen-word-3460-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14495/15423 [12:29:19<47:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14495/15423 [12:29:19<47:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.7M Sep  1 14:30 gen-word-3465-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14496/15423 [12:29:34<47:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.7M Sep  1 14:30 gen-word-3470-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14496/15423 [12:29:34<47:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.7M Sep  1 14:30 gen-word-3475-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14497/15423 [12:29:39<47:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14497/15423 [12:29:39<47:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.7M Sep  1 14:30 gen-word-3480-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14498/15423 [12:29:40<47:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14498/15423 [12:29:40<47:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.6M Sep  1 14:30 gen-word-3485-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14499/15423 [12:29:42<47:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14499/15423 [12:29:42<47:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.7M Sep  1 14:30 gen-word-3490-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14500/15423 [12:29:45<47:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14500/15423 [12:29:45<47:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.7M Sep  1 14:30 gen-word-3495-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14501/15423 [12:29:46<47:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14501/15423 [12:29:46<47:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   44K Sep  1 14:30 gen-word-35-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14502/15423 [12:29:50<47:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14502/15423 [12:29:50<47:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  349K Sep  1 14:30 gen-word-350-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14503/15423 [12:29:53<47:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14503/15423 [12:29:53<47:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.7M Sep  1 14:30 gen-word-3500-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14504/15423 [12:29:55<47:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14504/15423 [12:29:55<47:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.7M Sep  1 14:30 gen-word-3505-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14505/15423 [12:29:56<47:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14505/15423 [12:29:56<47:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.7M Sep  1 14:30 gen-word-3510-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14506/15423 [12:29:59<47:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14506/15423 [12:29:59<47:24,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.7M Sep  1 14:30 gen-word-3515-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14507/15423 [12:30:03<47:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14507/15423 [12:30:03<47:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.7M Sep  1 14:30 gen-word-3520-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|��| 14508/15423 [12:30:05<47:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14508/15423 [12:30:05<47:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.8M Sep  1 14:30 gen-word-3525-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14509/15423 [12:30:09<47:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14509/15423 [12:30:09<47:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.8M Sep  1 14:30 gen-word-3530-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14510/15423 [12:30:10<47:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14510/15423 [12:30:10<47:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.8M Sep  1 14:30 gen-word-3535-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14511/15423 [12:30:11<47:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14511/15423 [12:30:11<47:08,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.8M Sep  1 14:30 gen-word-3540-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14512/15423 [12:30:13<47:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14512/15423 [12:30:13<47:05,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.8M Sep  1 14:30 gen-word-3545-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14513/15423 [12:30:14<47:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14513/15423 [12:30:14<47:02,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  348K Sep  1 14:30 gen-word-355-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14514/15423 [12:30:16<46:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14514/15423 [12:30:16<46:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.8M Sep  1 14:30 gen-word-3550-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14515/15423 [12:30:17<46:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14515/15423 [12:30:17<46:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.8M Sep  1 14:30 gen-word-3555-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14516/15423 [12:30:21<46:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14516/15423 [12:30:21<46:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.8M Sep  1 14:30 gen-word-3560-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14517/15423 [12:30:23<46:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14517/15423 [12:30:23<46:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.8M Sep  1 14:30 gen-word-3565-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14518/15423 [12:30:27<46:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14518/15423 [12:30:27<46:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.9M Sep  1 14:30 gen-word-3570-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14519/15423 [12:30:30<46:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14519/15423 [12:30:30<46:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.9M Sep  1 14:30 gen-word-3575-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14520/15423 [12:30:33<46:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14520/15423 [12:30:33<46:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.9M Sep  1 14:30 gen-word-3580-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14521/15423 [12:30:37<46:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14521/15423 [12:30:37<46:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.9M Sep  1 14:30 gen-word-3585-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14522/15423 [12:30:40<46:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14522/15423 [12:30:40<46:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.9M Sep  1 14:30 gen-word-3590-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14523/15423 [12:30:41<46:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14523/15423 [12:30:41<46:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.9M Sep  1 14:30 gen-word-3595-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14524/15423 [12:30:42<46:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14524/15423 [12:30:42<46:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  358K Sep  1 14:30 gen-word-360-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14525/15423 [12:30:47<46:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14525/15423 [12:30:47<46:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.9M Sep  1 14:30 gen-word-3600-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14526/15423 [12:30:49<46:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14526/15423 [12:30:49<46:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.9M Sep  1 14:30 gen-word-3605-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14527/15423 [12:30:50<46:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14527/15423 [12:30:50<46:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.9M Sep  1 14:30 gen-word-3610-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14528/15423 [12:31:11<46:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14528/15423 [12:31:11<46:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.9M Sep  1 14:30 gen-word-3615-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14529/15423 [12:31:15<46:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14529/15423 [12:31:15<46:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.0M Sep  1 14:30 gen-word-3620-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14530/15423 [12:31:16<46:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14530/15423 [12:31:16<46:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.0M Sep  1 14:30 gen-word-3625-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14531/15423 [12:31:18<46:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14531/15423 [12:31:18<46:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  6.9M Sep  1 14:30 gen-word-3630-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14532/15423 [12:31:22<46:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14532/15423 [12:31:22<46:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.0M Sep  1 14:30 gen-word-3635-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14533/15423 [12:31:25<46:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14533/15423 [12:31:25<46:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.0M Sep  1 14:30 gen-word-3640-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14534/15423 [12:31:30<45:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14534/15423 [12:31:30<45:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.0M Sep  1 14:30 gen-word-3645-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14535/15423 [12:31:33<45:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14535/15423 [12:31:33<45:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  362K Sep  1 14:30 gen-word-365-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14536/15423 [12:31:37<45:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14536/15423 [12:31:37<45:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.0M Sep  1 14:30 gen-word-3650-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14537/15423 [12:31:38<45:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14537/15423 [12:31:38<45:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.0M Sep  1 14:30 gen-word-3655-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14538/15423 [12:31:40<45:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14538/15423 [12:31:40<45:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.0M Sep  1 14:30 gen-word-3660-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14539/15423 [12:31:41<45:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14539/15423 [12:31:41<45:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.0M Sep  1 14:30 gen-word-3665-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14540/15423 [12:31:42<45:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14540/15423 [12:31:42<45:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.1M Sep  1 14:30 gen-word-3670-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14541/15423 [12:31:44<45:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14541/15423 [12:31:44<45:35,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.0M Sep  1 14:30 gen-word-3675-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14542/15423 [12:31:47<45:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14542/15423 [12:31:47<45:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.1M Sep  1 14:30 gen-word-3680-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14543/15423 [12:31:51<45:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14543/15423 [12:31:51<45:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.0M Sep  1 14:30 gen-word-3685-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14544/15423 [12:31:54<45:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14544/15423 [12:31:54<45:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.1M Sep  1 14:30 gen-word-3690-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14545/15423 [12:31:58<45:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14545/15423 [12:31:58<45:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.1M Sep  1 14:30 gen-word-3695-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14546/15423 [12:32:01<45:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14546/15423 [12:32:01<45:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  373K Sep  1 14:30 gen-word-370-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14547/15423 [12:32:06<45:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14547/15423 [12:32:06<45:17,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.1M Sep  1 14:30 gen-word-3700-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14548/15423 [12:32:06<45:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14548/15423 [12:32:06<45:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.1M Sep  1 14:30 gen-word-3705-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14549/15423 [12:32:07<45:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14549/15423 [12:32:07<45:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.1M Sep  1 14:30 gen-word-3710-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14550/15423 [12:32:11<45:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14550/15423 [12:32:11<45:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.1M Sep  1 14:30 gen-word-3715-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14551/15423 [12:32:14<45:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14551/15423 [12:32:14<45:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.1M Sep  1 14:30 gen-word-3720-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14552/15423 [12:32:18<45:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14552/15423 [12:32:18<45:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.1M Sep  1 14:30 gen-word-3725-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14553/15423 [12:32:19<44:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14553/15423 [12:32:19<44:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.1M Sep  1 14:30 gen-word-3730-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14554/15423 [12:32:21<44:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14554/15423 [12:32:21<44:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.2M Sep  1 14:30 gen-word-3735-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14555/15423 [12:32:22<44:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14555/15423 [12:32:22<44:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.2M Sep  1 14:30 gen-word-3740-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14556/15423 [12:32:24<44:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14556/15423 [12:32:24<44:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.2M Sep  1 14:30 gen-word-3745-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14557/15423 [12:32:28<44:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14557/15423 [12:32:28<44:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  380K Sep  1 14:30 gen-word-375-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14558/15423 [12:32:30<44:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14558/15423 [12:32:30<44:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.2M Sep  1 14:30 gen-word-3750-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14559/15423 [12:32:34<44:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.2M Sep  1 14:30 gen-word-3755-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14559/15423 [12:32:34<44:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.2M Sep  1 14:30 gen-word-3760-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14560/15423 [12:32:45<44:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14560/15423 [12:32:45<44:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.2M Sep  1 14:30 gen-word-3765-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14561/15423 [12:32:46<44:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14561/15423 [12:32:46<44:33,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.2M Sep  1 14:30 gen-word-3770-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14562/15423 [12:32:47<44:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14562/15423 [12:32:47<44:30,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.2M Sep  1 14:30 gen-word-3775-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14563/15423 [12:32:51<44:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14563/15423 [12:32:51<44:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.3M Sep  1 14:30 gen-word-3780-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14564/15423 [12:32:55<44:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14564/15423 [12:32:55<44:24,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.3M Sep  1 14:30 gen-word-3785-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14565/15423 [12:32:59<44:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14565/15423 [12:32:59<44:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.3M Sep  1 14:30 gen-word-3790-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14566/15423 [12:33:00<44:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14566/15423 [12:33:00<44:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.3M Sep  1 14:30 gen-word-3795-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14567/15423 [12:33:02<44:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14567/15423 [12:33:02<44:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  376K Sep  1 14:30 gen-word-380-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14568/15423 [12:33:06<44:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14568/15423 [12:33:06<44:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.3M Sep  1 14:30 gen-word-3800-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14569/15423 [12:33:11<44:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14569/15423 [12:33:11<44:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.3M Sep  1 14:30 gen-word-3805-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14570/15423 [12:33:14<44:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14570/15423 [12:33:14<44:05,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.3M Sep  1 14:30 gen-word-3810-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14571/15423 [12:33:14<44:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14571/15423 [12:33:14<44:02,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.3M Sep  1 14:30 gen-word-3815-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14572/15423 [12:33:17<43:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14572/15423 [12:33:17<43:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.3M Sep  1 14:30 gen-word-3820-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14573/15423 [12:33:17<43:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14573/15423 [12:33:17<43:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.3M Sep  1 14:30 gen-word-3825-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  94%|▉| 14574/15423 [12:33:20<43:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  94%|▉| 14574/15423 [12:33:20<43:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.4M Sep  1 14:30 gen-word-3830-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14575/15423 [12:33:23<43:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14575/15423 [12:33:23<43:50,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.4M Sep  1 14:30 gen-word-3835-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14576/15423 [12:33:27<43:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14576/15423 [12:33:27<43:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.3M Sep  1 14:30 gen-word-3840-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14577/15423 [12:33:28<43:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14577/15423 [12:33:28<43:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.4M Sep  1 14:30 gen-word-3845-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14578/15423 [12:33:32<43:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14578/15423 [12:33:32<43:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  384K Sep  1 14:30 gen-word-385-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14579/15423 [12:33:35<43:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.4M Sep  1 14:30 gen-word-3850-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14579/15423 [12:33:35<43:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.4M Sep  1 14:30 gen-word-3855-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14580/15423 [12:33:39<43:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14580/15423 [12:33:39<43:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.4M Sep  1 14:30 gen-word-3860-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14581/15423 [12:33:42<43:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14581/15423 [12:33:42<43:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.4M Sep  1 14:30 gen-word-3865-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14582/15423 [12:33:46<43:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14582/15423 [12:33:46<43:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.4M Sep  1 14:30 gen-word-3870-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14583/15423 [12:33:50<43:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14583/15423 [12:33:50<43:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.4M Sep  1 14:30 gen-word-3875-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14584/15423 [12:33:54<43:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14584/15423 [12:33:54<43:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.5M Sep  1 14:30 gen-word-3880-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14585/15423 [12:33:58<43:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14585/15423 [12:33:58<43:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.4M Sep  1 14:30 gen-word-3885-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14586/15423 [12:34:01<43:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14586/15423 [12:34:01<43:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.4M Sep  1 14:30 gen-word-3890-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14587/15423 [12:34:01<43:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14587/15423 [12:34:01<43:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.5M Sep  1 14:30 gen-word-3895-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14588/15423 [12:34:05<43:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14588/15423 [12:34:05<43:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  389K Sep  1 14:30 gen-word-390-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14589/15423 [12:34:07<43:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14589/15423 [12:34:07<43:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.5M Sep  1 14:30 gen-word-3900-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14590/15423 [12:34:09<43:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14590/15423 [12:34:09<43:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.5M Sep  1 14:30 gen-word-3905-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14591/15423 [12:34:12<43:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14591/15423 [12:34:12<43:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.5M Sep  1 14:30 gen-word-3910-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14592/15423 [12:34:23<42:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14592/15423 [12:34:23<42:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.5M Sep  1 14:30 gen-word-3915-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14593/15423 [12:34:26<42:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14593/15423 [12:34:26<42:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.5M Sep  1 14:30 gen-word-3920-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14594/15423 [12:34:29<42:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14594/15423 [12:34:29<42:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.5M Sep  1 14:30 gen-word-3925-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14595/15423 [12:34:29<42:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14595/15423 [12:34:29<42:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.5M Sep  1 14:30 gen-word-3930-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14596/15423 [12:34:34<42:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14596/15423 [12:34:34<42:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.5M Sep  1 14:30 gen-word-3935-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14597/15423 [12:34:36<42:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14597/15423 [12:34:36<42:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.5M Sep  1 14:30 gen-word-3940-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14598/15423 [12:34:40<42:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14598/15423 [12:34:40<42:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.6M Sep  1 14:30 gen-word-3945-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14599/15423 [12:34:44<42:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14599/15423 [12:34:44<42:35,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  391K Sep  1 14:30 gen-word-395-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14600/15423 [12:34:47<42:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14600/15423 [12:34:47<42:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.5M Sep  1 14:30 gen-word-3950-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14601/15423 [12:34:50<42:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.6M Sep  1 14:30 gen-word-3955-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14601/15423 [12:34:50<42:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.6M Sep  1 14:30 gen-word-3960-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14602/15423 [12:34:53<42:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14602/15423 [12:34:53<42:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.6M Sep  1 14:30 gen-word-3965-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14603/15423 [12:34:57<42:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14603/15423 [12:34:57<42:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.6M Sep  1 14:30 gen-word-3970-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14604/15423 [12:34:57<42:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14604/15423 [12:34:57<42:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.6M Sep  1 14:30 gen-word-3975-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14605/15423 [12:34:58<42:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14605/15423 [12:34:58<42:17,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.6M Sep  1 14:30 gen-word-3980-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14606/15423 [12:35:00<42:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14606/15423 [12:35:00<42:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.6M Sep  1 14:30 gen-word-3985-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14607/15423 [12:35:01<42:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14607/15423 [12:35:01<42:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.6M Sep  1 14:30 gen-word-3990-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14608/15423 [12:35:04<42:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14608/15423 [12:35:04<42:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.7M Sep  1 14:30 gen-word-3995-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14609/15423 [12:35:08<42:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14609/15423 [12:35:08<42:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   49K Sep  1 14:30 gen-word-40-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14610/15423 [12:35:11<42:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14610/15423 [12:35:11<42:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  403K Sep  1 14:30 gen-word-400-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14611/15423 [12:35:11<41:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14611/15423 [12:35:11<41:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  7.7M Sep  1 14:30 gen-word-4000-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14612/15423 [12:35:13<41:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14612/15423 [12:35:13<41:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  401K Sep  1 14:30 gen-word-405-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14613/15423 [12:35:16<41:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  412K Sep  1 14:30 gen-word-410-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14613/15423 [12:35:16<41:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  417K Sep  1 14:30 gen-word-415-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14614/15423 [12:35:19<41:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14614/15423 [12:35:19<41:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  420K Sep  1 14:30 gen-word-420-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14615/15423 [12:35:21<41:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14615/15423 [12:35:21<41:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  422K Sep  1 14:30 gen-word-425-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14616/15423 [12:35:24<41:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  428K Sep  1 14:30 gen-word-430-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14616/15423 [12:35:24<41:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  430K Sep  1 14:30 gen-word-435-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14617/15423 [12:35:26<41:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14617/15423 [12:35:26<41:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  433K Sep  1 14:30 gen-word-440-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14618/15423 [12:35:30<41:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14618/15423 [12:35:30<41:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  446K Sep  1 14:30 gen-word-445-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14619/15423 [12:35:34<41:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14619/15423 [12:35:34<41:33,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   54K Sep  1 14:30 gen-word-45-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14620/15423 [12:35:35<41:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14620/15423 [12:35:35<41:30,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  445K Sep  1 14:30 gen-word-450-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14621/15423 [12:35:37<41:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14621/15423 [12:35:37<41:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  457K Sep  1 14:30 gen-word-455-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14622/15423 [12:35:40<41:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14622/15423 [12:35:40<41:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  455K Sep  1 14:30 gen-word-460-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14623/15423 [12:35:43<41:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14623/15423 [12:35:43<41:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  471K Sep  1 14:30 gen-word-465-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14624/15423 [12:35:59<41:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14624/15423 [12:35:59<41:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  469K Sep  1 14:30 gen-word-470-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14625/15423 [12:36:00<41:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14625/15423 [12:36:00<41:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  463K Sep  1 14:30 gen-word-475-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14626/15423 [12:36:05<41:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14626/15423 [12:36:05<41:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  480K Sep  1 14:30 gen-word-480-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14627/15423 [12:36:09<41:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14627/15423 [12:36:09<41:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  493K Sep  1 14:30 gen-word-485-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14628/15423 [12:36:10<41:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14628/15423 [12:36:10<41:05,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  487K Sep  1 14:30 gen-word-490-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14629/15423 [12:36:13<41:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14629/15423 [12:36:13<41:02,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  489K Sep  1 14:30 gen-word-495-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14630/15423 [12:36:17<40:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   15K Sep  1 14:30 gen-word-5-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14630/15423 [12:36:17<40:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   60K Sep  1 14:30 gen-word-50-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14631/15423 [12:36:17<40:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14631/15423 [12:36:17<40:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  498K Sep  1 14:30 gen-word-500-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14632/15423 [12:36:21<40:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14632/15423 [12:36:21<40:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root 1006K Sep  1 14:30 gen-word-505-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14633/15423 [12:36:22<40:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14633/15423 [12:36:22<40:50,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root 1013K Sep  1 14:30 gen-word-510-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14634/15423 [12:36:24<40:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14634/15423 [12:36:24<40:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root 1015K Sep  1 14:30 gen-word-515-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14635/15423 [12:36:28<40:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14635/15423 [12:36:28<40:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.1M Sep  1 14:30 gen-word-520-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14636/15423 [12:36:30<40:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.1M Sep  1 14:30 gen-word-525-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14636/15423 [12:36:30<40:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.1M Sep  1 14:30 gen-word-530-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14637/15423 [12:36:35<40:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14637/15423 [12:36:35<40:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.1M Sep  1 14:30 gen-word-535-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14638/15423 [12:36:37<40:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14638/15423 [12:36:37<40:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.1M Sep  1 14:30 gen-word-540-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14639/15423 [12:36:38<40:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14639/15423 [12:36:38<40:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.1M Sep  1 14:30 gen-word-545-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14640/15423 [12:36:41<40:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   64K Sep  1 14:30 gen-word-55-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14640/15423 [12:36:41<40:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.1M Sep  1 14:30 gen-word-550-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14641/15423 [12:36:45<40:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14641/15423 [12:36:45<40:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.1M Sep  1 14:30 gen-word-555-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14642/15423 [12:36:49<40:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14642/15423 [12:36:49<40:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.1M Sep  1 14:30 gen-word-560-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14643/15423 [12:36:52<40:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14643/15423 [12:36:52<40:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.1M Sep  1 14:30 gen-word-565-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14644/15423 [12:36:56<40:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14644/15423 [12:36:56<40:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.2M Sep  1 14:30 gen-word-570-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14645/15423 [12:36:59<40:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14645/15423 [12:36:59<40:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.2M Sep  1 14:30 gen-word-575-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14646/15423 [12:37:00<40:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14646/15423 [12:37:00<40:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.2M Sep  1 14:30 gen-word-580-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14647/15423 [12:37:02<40:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14647/15423 [12:37:02<40:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.2M Sep  1 14:30 gen-word-585-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14648/15423 [12:37:05<40:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14648/15423 [12:37:05<40:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.2M Sep  1 14:30 gen-word-590-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14649/15423 [12:37:08<40:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14649/15423 [12:37:08<40:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.2M Sep  1 14:30 gen-word-595-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14650/15423 [12:37:12<39:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14650/15423 [12:37:12<39:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   68K Sep  1 14:30 gen-word-60-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14651/15423 [12:37:16<39:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14651/15423 [12:37:16<39:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.2M Sep  1 14:30 gen-word-600-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14652/15423 [12:37:18<39:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14652/15423 [12:37:18<39:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.2M Sep  1 14:30 gen-word-605-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14653/15423 [12:37:21<39:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14653/15423 [12:37:21<39:47,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.2M Sep  1 14:30 gen-word-610-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14654/15423 [12:37:25<39:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14654/15423 [12:37:25<39:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.2M Sep  1 14:30 gen-word-615-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14655/15423 [12:37:25<39:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14655/15423 [12:37:25<39:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.3M Sep  1 14:30 gen-word-620-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14656/15423 [12:37:35<39:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14656/15423 [12:37:35<39:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.3M Sep  1 14:30 gen-word-625-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14657/15423 [12:37:37<39:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14657/15423 [12:37:37<39:35,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.3M Sep  1 14:30 gen-word-630-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14658/15423 [12:37:39<39:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14658/15423 [12:37:39<39:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.3M Sep  1 14:30 gen-word-635-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14659/15423 [12:37:44<39:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14659/15423 [12:37:44<39:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.3M Sep  1 14:30 gen-word-640-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14660/15423 [12:37:48<39:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14660/15423 [12:37:48<39:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.3M Sep  1 14:30 gen-word-645-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14661/15423 [12:37:50<39:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14661/15423 [12:37:50<39:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   71K Sep  1 14:30 gen-word-65-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14662/15423 [12:37:51<39:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14662/15423 [12:37:51<39:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.3M Sep  1 14:30 gen-word-650-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14663/15423 [12:37:54<39:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14663/15423 [12:37:54<39:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.3M Sep  1 14:30 gen-word-655-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14664/15423 [12:37:58<39:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14664/15423 [12:37:58<39:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.3M Sep  1 14:30 gen-word-660-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14665/15423 [12:38:00<39:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14665/15423 [12:38:00<39:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.3M Sep  1 14:30 gen-word-665-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14666/15423 [12:38:01<39:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14666/15423 [12:38:01<39:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.3M Sep  1 14:30 gen-word-670-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14667/15423 [12:38:05<39:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14667/15423 [12:38:05<39:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.3M Sep  1 14:30 gen-word-675-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14668/15423 [12:38:07<39:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14668/15423 [12:38:07<39:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.4M Sep  1 14:30 gen-word-680-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14669/15423 [12:38:09<38:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14669/15423 [12:38:09<38:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.4M Sep  1 14:30 gen-word-685-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14670/15423 [12:38:12<38:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14670/15423 [12:38:12<38:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.4M Sep  1 14:30 gen-word-690-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14671/15423 [12:38:15<38:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14671/15423 [12:38:15<38:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.4M Sep  1 14:30 gen-word-695-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14672/15423 [12:38:15<38:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   79K Sep  1 14:30 gen-word-70-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14672/15423 [12:38:15<38:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.4M Sep  1 14:30 gen-word-700-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14673/15423 [12:38:16<38:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14673/15423 [12:38:16<38:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.4M Sep  1 14:30 gen-word-705-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14674/15423 [12:38:20<38:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14674/15423 [12:38:20<38:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.4M Sep  1 14:30 gen-word-710-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14675/15423 [12:38:22<38:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14675/15423 [12:38:22<38:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.4M Sep  1 14:30 gen-word-715-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14676/15423 [12:38:24<38:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14676/15423 [12:38:24<38:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.4M Sep  1 14:30 gen-word-720-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14677/15423 [12:38:25<38:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14677/15423 [12:38:25<38:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.4M Sep  1 14:30 gen-word-725-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14678/15423 [12:38:27<38:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14678/15423 [12:38:27<38:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.5M Sep  1 14:30 gen-word-730-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14679/15423 [12:38:29<38:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14679/15423 [12:38:29<38:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.5M Sep  1 14:30 gen-word-735-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14680/15423 [12:38:29<38:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14680/15423 [12:38:29<38:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.5M Sep  1 14:30 gen-word-740-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14681/15423 [12:38:30<38:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14681/15423 [12:38:30<38:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.5M Sep  1 14:30 gen-word-745-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14682/15423 [12:38:34<38:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14682/15423 [12:38:34<38:17,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   83K Sep  1 14:30 gen-word-75-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14683/15423 [12:38:37<38:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14683/15423 [12:38:37<38:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.5M Sep  1 14:30 gen-word-750-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14684/15423 [12:38:40<38:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.5M Sep  1 14:30 gen-word-755-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14684/15423 [12:38:40<38:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.5M Sep  1 14:30 gen-word-760-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14685/15423 [12:38:44<38:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14685/15423 [12:38:44<38:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.5M Sep  1 14:30 gen-word-765-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14686/15423 [12:38:47<38:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14686/15423 [12:38:47<38:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.5M Sep  1 14:30 gen-word-770-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14687/15423 [12:38:51<38:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.5M Sep  1 14:30 gen-word-775-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14687/15423 [12:38:51<38:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.6M Sep  1 14:30 gen-word-780-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14688/15423 [12:39:09<37:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14688/15423 [12:39:09<37:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.6M Sep  1 14:30 gen-word-785-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14689/15423 [12:39:13<37:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14689/15423 [12:39:13<37:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.6M Sep  1 14:30 gen-word-790-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14690/15423 [12:39:17<37:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14690/15423 [12:39:17<37:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.6M Sep  1 14:30 gen-word-795-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14691/15423 [12:39:19<37:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14691/15423 [12:39:19<37:50,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   88K Sep  1 14:30 gen-word-80-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14692/15423 [12:39:20<37:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14692/15423 [12:39:20<37:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.6M Sep  1 14:30 gen-word-800-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14693/15423 [12:39:24<37:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14693/15423 [12:39:24<37:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.6M Sep  1 14:30 gen-word-805-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14694/15423 [12:39:28<37:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14694/15423 [12:39:28<37:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.6M Sep  1 14:30 gen-word-810-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14695/15423 [12:39:31<37:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14695/15423 [12:39:31<37:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.6M Sep  1 14:30 gen-word-815-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14696/15423 [12:39:35<37:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14696/15423 [12:39:35<37:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.6M Sep  1 14:30 gen-word-820-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14697/15423 [12:39:36<37:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14697/15423 [12:39:36<37:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.6M Sep  1 14:30 gen-word-825-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14698/15423 [12:39:39<37:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14698/15423 [12:39:39<37:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.6M Sep  1 14:30 gen-word-830-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14699/15423 [12:39:43<37:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14699/15423 [12:39:43<37:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.7M Sep  1 14:30 gen-word-835-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14700/15423 [12:39:45<37:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14700/15423 [12:39:45<37:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.7M Sep  1 14:30 gen-word-840-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14701/15423 [12:39:48<37:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.7M Sep  1 14:30 gen-word-845-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14701/15423 [12:39:48<37:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   93K Sep  1 14:30 gen-word-85-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14702/15423 [12:39:52<37:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14702/15423 [12:39:52<37:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.7M Sep  1 14:30 gen-word-850-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14703/15423 [12:39:53<37:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14703/15423 [12:39:53<37:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.7M Sep  1 14:30 gen-word-855-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14704/15423 [12:39:54<37:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14704/15423 [12:39:54<37:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.7M Sep  1 14:30 gen-word-860-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14705/15423 [12:39:58<37:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14705/15423 [12:39:58<37:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.7M Sep  1 14:30 gen-word-865-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14706/15423 [12:40:00<37:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14706/15423 [12:40:00<37:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.7M Sep  1 14:30 gen-word-870-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14707/15423 [12:40:02<37:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14707/15423 [12:40:02<37:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.7M Sep  1 14:30 gen-word-875-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14708/15423 [12:40:05<36:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14708/15423 [12:40:05<36:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.7M Sep  1 14:30 gen-word-880-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14709/15423 [12:40:06<36:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14709/15423 [12:40:06<36:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.7M Sep  1 14:30 gen-word-885-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14710/15423 [12:40:08<36:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14710/15423 [12:40:08<36:50,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.8M Sep  1 14:30 gen-word-890-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14711/15423 [12:40:12<36:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14711/15423 [12:40:12<36:47,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.8M Sep  1 14:30 gen-word-895-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14712/15423 [12:40:15<36:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14712/15423 [12:40:15<36:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   98K Sep  1 14:30 gen-word-90-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14713/15423 [12:40:16<36:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14713/15423 [12:40:16<36:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.8M Sep  1 14:30 gen-word-900-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14714/15423 [12:40:19<36:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14714/15423 [12:40:19<36:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.8M Sep  1 14:30 gen-word-905-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14715/15423 [12:40:20<36:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14715/15423 [12:40:20<36:35,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.8M Sep  1 14:30 gen-word-910-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14716/15423 [12:40:25<36:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14716/15423 [12:40:25<36:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.8M Sep  1 14:30 gen-word-915-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14717/15423 [12:40:29<36:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14717/15423 [12:40:29<36:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.8M Sep  1 14:30 gen-word-920-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14718/15423 [12:40:32<36:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14718/15423 [12:40:32<36:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.8M Sep  1 14:30 gen-word-925-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14719/15423 [12:40:34<36:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14719/15423 [12:40:34<36:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.8M Sep  1 14:30 gen-word-930-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14720/15423 [12:40:43<36:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14720/15423 [12:40:43<36:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.8M Sep  1 14:30 gen-word-935-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14721/15423 [12:40:46<36:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14721/15423 [12:40:46<36:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.9M Sep  1 14:30 gen-word-940-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14722/15423 [12:40:48<36:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14722/15423 [12:40:48<36:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.9M Sep  1 14:30 gen-word-945-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14723/15423 [12:40:51<36:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14723/15423 [12:40:51<36:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  100K Sep  1 14:30 gen-word-95-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14724/15423 [12:40:53<36:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14724/15423 [12:40:53<36:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.9M Sep  1 14:30 gen-word-950-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14725/15423 [12:40:54<36:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14725/15423 [12:40:54<36:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.9M Sep  1 14:30 gen-word-955-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14726/15423 [12:40:57<36:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14726/15423 [12:40:57<36:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.9M Sep  1 14:30 gen-word-960-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14727/15423 [12:41:00<35:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14727/15423 [12:41:00<35:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.9M Sep  1 14:30 gen-word-965-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  95%|▉| 14728/15423 [12:41:02<35:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  95%|▉| 14728/15423 [12:41:02<35:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.9M Sep  1 14:30 gen-word-970-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14729/15423 [12:41:06<35:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14729/15423 [12:41:06<35:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.9M Sep  1 14:30 gen-word-975-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14730/15423 [12:41:07<35:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14730/15423 [12:41:07<35:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.9M Sep  1 14:30 gen-word-980-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14731/15423 [12:41:11<35:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14731/15423 [12:41:11<35:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.9M Sep  1 14:30 gen-word-985-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14732/15423 [12:41:15<35:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14732/15423 [12:41:15<35:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  1.9M Sep  1 14:30 gen-word-990-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14733/15423 [12:41:17<35:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14733/15423 [12:41:17<35:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  2.0M Sep  1 14:30 gen-word-995-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14734/15423 [12:41:20<35:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14734/15423 [12:41:20<35:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   51K Sep  1 14:30 shuffle-word-10-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14735/15423 [12:41:21<35:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14735/15423 [12:41:21<35:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   29K Sep  1 14:30 shuffle-word-100-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14736/15423 [12:41:25<35:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14736/15423 [12:41:25<35:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-1000-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14737/15423 [12:41:26<35:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14737/15423 [12:41:26<35:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1005-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14738/15423 [12:41:31<35:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-1010-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14738/15423 [12:41:31<35:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  526K Sep  1 14:30 shuffle-word-1015-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14739/15423 [12:41:33<35:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14739/15423 [12:41:33<35:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1020-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14740/15423 [12:41:36<35:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14740/15423 [12:41:36<35:17,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1025-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14741/15423 [12:41:41<35:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14741/15423 [12:41:41<35:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1030-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14742/15423 [12:41:42<35:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14742/15423 [12:41:42<35:11,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1035-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14743/15423 [12:41:45<35:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14743/15423 [12:41:45<35:08,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1040-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14744/15423 [12:41:49<35:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14744/15423 [12:41:49<35:05,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-1045-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14745/15423 [12:41:50<35:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14745/15423 [12:41:50<35:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   30K Sep  1 14:30 shuffle-word-105-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14746/15423 [12:41:55<34:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14746/15423 [12:41:55<34:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1050-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14747/15423 [12:41:59<34:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14747/15423 [12:41:59<34:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-1055-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14748/15423 [12:42:01<34:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14748/15423 [12:42:01<34:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-1060-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14749/15423 [12:42:03<34:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14749/15423 [12:42:03<34:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-1065-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14750/15423 [12:42:06<34:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14750/15423 [12:42:06<34:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1070-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14751/15423 [12:42:07<34:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1075-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14751/15423 [12:42:07<34:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  525K Sep  1 14:30 shuffle-word-1080-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14752/15423 [12:42:32<34:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14752/15423 [12:42:32<34:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-1085-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14753/15423 [12:42:36<34:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14753/15423 [12:42:36<34:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-1090-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14754/15423 [12:42:41<34:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14754/15423 [12:42:41<34:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1095-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14755/15423 [12:42:42<34:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14755/15423 [12:42:42<34:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   29K Sep  1 14:30 shuffle-word-110-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14756/15423 [12:42:47<34:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14756/15423 [12:42:47<34:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  525K Sep  1 14:30 shuffle-word-1100-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14757/15423 [12:42:51<34:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14757/15423 [12:42:51<34:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1105-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14758/15423 [12:42:53<34:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14758/15423 [12:42:53<34:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-1110-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14759/15423 [12:42:57<34:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14759/15423 [12:42:57<34:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1115-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14760/15423 [12:42:59<34:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14760/15423 [12:42:59<34:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  525K Sep  1 14:30 shuffle-word-1120-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14761/15423 [12:43:00<34:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14761/15423 [12:43:00<34:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-1125-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14762/15423 [12:43:01<34:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14762/15423 [12:43:01<34:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1130-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14763/15423 [12:43:04<34:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14763/15423 [12:43:04<34:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1135-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14764/15423 [12:43:07<34:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14764/15423 [12:43:07<34:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1140-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14765/15423 [12:43:08<34:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14765/15423 [12:43:08<34:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1145-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14766/15423 [12:43:09<33:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14766/15423 [12:43:09<33:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   28K Sep  1 14:30 shuffle-word-115-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14767/15423 [12:43:11<33:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14767/15423 [12:43:11<33:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1150-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14768/15423 [12:43:12<33:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14768/15423 [12:43:12<33:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-1155-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14769/15423 [12:43:17<33:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14769/15423 [12:43:17<33:47,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1160-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14770/15423 [12:43:21<33:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14770/15423 [12:43:21<33:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1165-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14771/15423 [12:43:24<33:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14771/15423 [12:43:24<33:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-1170-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14772/15423 [12:43:26<33:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14772/15423 [12:43:26<33:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  517K Sep  1 14:30 shuffle-word-1175-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14773/15423 [12:43:28<33:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14773/15423 [12:43:28<33:35,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1180-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14774/15423 [12:43:29<33:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14774/15423 [12:43:29<33:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-1185-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14775/15423 [12:43:33<33:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14775/15423 [12:43:33<33:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-1190-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14776/15423 [12:43:36<33:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14776/15423 [12:43:36<33:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1195-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14777/15423 [12:43:38<33:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14777/15423 [12:43:38<33:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   28K Sep  1 14:30 shuffle-word-120-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14778/15423 [12:43:40<33:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14778/15423 [12:43:40<33:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1200-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14779/15423 [12:43:41<33:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14779/15423 [12:43:41<33:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1205-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14780/15423 [12:43:42<33:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14780/15423 [12:43:42<33:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1210-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14781/15423 [12:43:47<33:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14781/15423 [12:43:47<33:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1215-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14782/15423 [12:43:49<33:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14782/15423 [12:43:49<33:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1220-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14783/15423 [12:43:49<33:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14783/15423 [12:43:49<33:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-1225-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14784/15423 [12:44:07<33:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14784/15423 [12:44:07<33:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1230-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14785/15423 [12:44:10<32:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14785/15423 [12:44:10<32:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1235-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14786/15423 [12:44:14<32:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1240-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14786/15423 [12:44:14<32:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-1245-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14787/15423 [12:44:16<32:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   30K Sep  1 14:30 shuffle-word-125-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14787/15423 [12:44:16<32:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-1250-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14788/15423 [12:44:20<32:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14788/15423 [12:44:20<32:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1255-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14789/15423 [12:44:24<32:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14789/15423 [12:44:24<32:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1260-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14790/15423 [12:44:28<32:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14790/15423 [12:44:28<32:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-1265-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14791/15423 [12:44:28<32:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14791/15423 [12:44:28<32:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1270-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14792/15423 [12:44:30<32:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14792/15423 [12:44:30<32:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1275-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14793/15423 [12:44:33<32:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14793/15423 [12:44:33<32:33,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1280-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14794/15423 [12:44:36<32:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14794/15423 [12:44:36<32:30,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-1285-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14795/15423 [12:44:38<32:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14795/15423 [12:44:38<32:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1290-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14796/15423 [12:44:39<32:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14796/15423 [12:44:39<32:24,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1295-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14797/15423 [12:44:43<32:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14797/15423 [12:44:43<32:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   29K Sep  1 14:30 shuffle-word-130-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14798/15423 [12:44:45<32:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14798/15423 [12:44:45<32:17,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1300-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14799/15423 [12:44:49<32:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14799/15423 [12:44:49<32:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1305-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14800/15423 [12:44:50<32:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14800/15423 [12:44:50<32:11,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  517K Sep  1 14:30 shuffle-word-1310-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14801/15423 [12:44:51<32:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14801/15423 [12:44:51<32:08,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1315-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14802/15423 [12:44:53<32:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14802/15423 [12:44:53<32:05,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1320-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14803/15423 [12:44:56<32:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14803/15423 [12:44:56<32:02,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1325-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14804/15423 [12:44:58<31:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14804/15423 [12:44:58<31:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1330-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14805/15423 [12:45:00<31:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1335-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14805/15423 [12:45:00<31:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1340-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14806/15423 [12:45:04<31:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14806/15423 [12:45:04<31:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1345-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14807/15423 [12:45:09<31:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14807/15423 [12:45:09<31:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-135-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14808/15423 [12:45:13<31:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14808/15423 [12:45:13<31:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1350-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14809/15423 [12:45:15<31:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14809/15423 [12:45:15<31:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1355-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14810/15423 [12:45:17<31:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14810/15423 [12:45:17<31:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1360-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14811/15423 [12:45:21<31:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14811/15423 [12:45:21<31:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1365-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14812/15423 [12:45:23<31:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14812/15423 [12:45:23<31:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  517K Sep  1 14:30 shuffle-word-1370-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14813/15423 [12:45:28<31:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14813/15423 [12:45:28<31:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1375-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14814/15423 [12:45:32<31:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14814/15423 [12:45:32<31:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1380-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14815/15423 [12:45:34<31:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14815/15423 [12:45:34<31:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1385-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14816/15423 [12:45:50<31:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14816/15423 [12:45:50<31:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1390-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14817/15423 [12:45:51<31:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14817/15423 [12:45:51<31:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1395-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14818/15423 [12:45:56<31:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14818/15423 [12:45:56<31:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   28K Sep  1 14:30 shuffle-word-140-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14819/15423 [12:46:00<31:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14819/15423 [12:46:00<31:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1400-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14820/15423 [12:46:04<31:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14820/15423 [12:46:04<31:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1405-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14821/15423 [12:46:08<31:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14821/15423 [12:46:08<31:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-1410-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14822/15423 [12:46:09<31:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14822/15423 [12:46:09<31:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-1415-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14823/15423 [12:46:10<31:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14823/15423 [12:46:10<31:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1420-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14824/15423 [12:46:14<30:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14824/15423 [12:46:14<30:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1425-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14825/15423 [12:46:18<30:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14825/15423 [12:46:18<30:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1430-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14826/15423 [12:46:20<30:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14826/15423 [12:46:20<30:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1435-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14827/15423 [12:46:22<30:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14827/15423 [12:46:22<30:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1440-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14828/15423 [12:46:23<30:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14828/15423 [12:46:23<30:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1445-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14829/15423 [12:46:25<30:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14829/15423 [12:46:25<30:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   29K Sep  1 14:30 shuffle-word-145-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14830/15423 [12:46:29<30:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14830/15423 [12:46:29<30:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-1450-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14831/15423 [12:46:30<30:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14831/15423 [12:46:30<30:35,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1455-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14832/15423 [12:46:32<30:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14832/15423 [12:46:32<30:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-1460-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14833/15423 [12:46:35<30:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14833/15423 [12:46:35<30:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1465-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14834/15423 [12:46:38<30:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14834/15423 [12:46:38<30:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1470-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14835/15423 [12:46:40<30:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14835/15423 [12:46:40<30:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1475-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14836/15423 [12:46:42<30:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14836/15423 [12:46:42<30:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1480-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14837/15423 [12:46:44<30:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14837/15423 [12:46:44<30:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1485-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14838/15423 [12:46:46<30:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14838/15423 [12:46:46<30:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1490-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14839/15423 [12:46:50<30:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14839/15423 [12:46:50<30:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  517K Sep  1 14:30 shuffle-word-1495-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14840/15423 [12:46:51<30:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14840/15423 [12:46:51<30:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   44K Sep  1 14:30 shuffle-word-15-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14841/15423 [12:46:54<30:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14841/15423 [12:46:54<30:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-150-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14842/15423 [12:46:57<30:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1500-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14842/15423 [12:46:57<30:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-1505-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14843/15423 [12:47:01<29:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14843/15423 [12:47:01<29:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1510-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14844/15423 [12:47:04<29:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14844/15423 [12:47:04<29:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1515-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14845/15423 [12:47:07<29:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14845/15423 [12:47:07<29:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1520-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14846/15423 [12:47:07<29:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14846/15423 [12:47:07<29:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-1525-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14847/15423 [12:47:11<29:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14847/15423 [12:47:11<29:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1530-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14848/15423 [12:47:25<29:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14848/15423 [12:47:25<29:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1535-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14849/15423 [12:47:28<29:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14849/15423 [12:47:28<29:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1540-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14850/15423 [12:47:29<29:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14850/15423 [12:47:29<29:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1545-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14851/15423 [12:47:33<29:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14851/15423 [12:47:33<29:33,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   28K Sep  1 14:30 shuffle-word-155-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14852/15423 [12:47:37<29:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14852/15423 [12:47:37<29:30,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1550-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14853/15423 [12:47:40<29:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14853/15423 [12:47:40<29:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1555-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14854/15423 [12:47:44<29:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14854/15423 [12:47:44<29:24,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1560-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14855/15423 [12:47:46<29:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14855/15423 [12:47:46<29:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-1565-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14856/15423 [12:47:47<29:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14856/15423 [12:47:47<29:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1570-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14857/15423 [12:47:51<29:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14857/15423 [12:47:51<29:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1575-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14858/15423 [12:47:55<29:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1580-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14858/15423 [12:47:55<29:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1585-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14859/15423 [12:47:59<29:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14859/15423 [12:47:59<29:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1590-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14860/15423 [12:48:00<29:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14860/15423 [12:48:00<29:05,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1595-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14861/15423 [12:48:04<29:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14861/15423 [12:48:04<29:02,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   26K Sep  1 14:30 shuffle-word-160-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14862/15423 [12:48:08<28:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14862/15423 [12:48:08<28:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1600-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14863/15423 [12:48:12<28:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14863/15423 [12:48:12<28:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1605-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14864/15423 [12:48:14<28:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14864/15423 [12:48:14<28:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1610-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14865/15423 [12:48:18<28:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14865/15423 [12:48:18<28:50,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1615-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14866/15423 [12:48:19<28:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14866/15423 [12:48:19<28:47,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1620-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14867/15423 [12:48:23<28:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14867/15423 [12:48:23<28:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1625-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14868/15423 [12:48:24<28:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14868/15423 [12:48:24<28:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1630-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14869/15423 [12:48:26<28:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14869/15423 [12:48:26<28:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1635-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14870/15423 [12:48:30<28:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14870/15423 [12:48:30<28:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1640-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14871/15423 [12:48:33<28:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14871/15423 [12:48:33<28:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1645-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14872/15423 [12:48:34<28:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14872/15423 [12:48:34<28:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   28K Sep  1 14:30 shuffle-word-165-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14873/15423 [12:48:36<28:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14873/15423 [12:48:36<28:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-1650-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14874/15423 [12:48:41<28:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14874/15423 [12:48:41<28:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1655-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14875/15423 [12:48:41<28:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14875/15423 [12:48:41<28:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  517K Sep  1 14:30 shuffle-word-1660-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14876/15423 [12:48:44<28:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14876/15423 [12:48:44<28:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1665-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14877/15423 [12:48:45<28:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14877/15423 [12:48:45<28:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1670-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14878/15423 [12:48:49<28:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14878/15423 [12:48:49<28:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1675-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14879/15423 [12:48:53<28:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14879/15423 [12:48:53<28:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1680-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14880/15423 [12:49:11<28:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14880/15423 [12:49:11<28:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1685-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14881/15423 [12:49:15<28:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14881/15423 [12:49:15<28:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1690-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14882/15423 [12:49:17<27:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14882/15423 [12:49:17<27:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1695-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  96%|▉| 14883/15423 [12:49:18<27:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  96%|▉| 14883/15423 [12:49:18<27:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-170-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14884/15423 [12:49:21<27:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14884/15423 [12:49:21<27:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1700-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14885/15423 [12:49:22<27:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14885/15423 [12:49:22<27:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1705-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14886/15423 [12:49:27<27:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14886/15423 [12:49:27<27:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-1710-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14887/15423 [12:49:28<27:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14887/15423 [12:49:28<27:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1715-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14888/15423 [12:49:32<27:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14888/15423 [12:49:32<27:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-1720-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14889/15423 [12:49:35<27:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14889/15423 [12:49:35<27:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1725-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14890/15423 [12:49:37<27:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14890/15423 [12:49:37<27:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1730-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14891/15423 [12:49:40<27:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14891/15423 [12:49:40<27:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1735-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14892/15423 [12:49:43<27:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14892/15423 [12:49:43<27:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1740-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14893/15423 [12:49:44<27:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14893/15423 [12:49:44<27:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  517K Sep  1 14:30 shuffle-word-1745-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14894/15423 [12:49:45<27:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14894/15423 [12:49:45<27:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   28K Sep  1 14:30 shuffle-word-175-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14895/15423 [12:49:47<27:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14895/15423 [12:49:47<27:17,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1750-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14896/15423 [12:49:51<27:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14896/15423 [12:49:51<27:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1755-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14897/15423 [12:49:54<27:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14897/15423 [12:49:54<27:11,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1760-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14898/15423 [12:49:58<27:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14898/15423 [12:49:58<27:08,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-1765-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14899/15423 [12:49:59<27:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14899/15423 [12:49:59<27:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1770-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14900/15423 [12:50:01<27:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14900/15423 [12:50:01<27:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1775-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14901/15423 [12:50:03<26:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14901/15423 [12:50:03<26:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1780-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14902/15423 [12:50:07<26:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14902/15423 [12:50:07<26:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-1785-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14903/15423 [12:50:11<26:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14903/15423 [12:50:11<26:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1790-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14904/15423 [12:50:14<26:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14904/15423 [12:50:14<26:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1795-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14905/15423 [12:50:17<26:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14905/15423 [12:50:17<26:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   28K Sep  1 14:30 shuffle-word-180-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14906/15423 [12:50:19<26:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14906/15423 [12:50:19<26:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1800-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14907/15423 [12:50:21<26:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14907/15423 [12:50:21<26:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1805-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14908/15423 [12:50:25<26:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14908/15423 [12:50:25<26:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1810-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14909/15423 [12:50:27<26:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14909/15423 [12:50:27<26:33,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1815-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14910/15423 [12:50:31<26:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14910/15423 [12:50:31<26:30,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-1820-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14911/15423 [12:50:33<26:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14911/15423 [12:50:33<26:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1825-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14912/15423 [12:50:52<26:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14912/15423 [12:50:52<26:24,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1830-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14913/15423 [12:50:53<26:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14913/15423 [12:50:53<26:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1835-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14914/15423 [12:50:58<26:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14914/15423 [12:50:58<26:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1840-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14915/15423 [12:51:00<26:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14915/15423 [12:51:00<26:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1845-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14916/15423 [12:51:01<26:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14916/15423 [12:51:01<26:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   28K Sep  1 14:30 shuffle-word-185-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14917/15423 [12:51:05<26:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14917/15423 [12:51:05<26:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-1850-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14918/15423 [12:51:06<26:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14918/15423 [12:51:06<26:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1855-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14919/15423 [12:51:11<26:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14919/15423 [12:51:11<26:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1860-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14920/15423 [12:51:11<25:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14920/15423 [12:51:11<25:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1865-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14921/15423 [12:51:12<25:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14921/15423 [12:51:12<25:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1870-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14922/15423 [12:51:15<25:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14922/15423 [12:51:15<25:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1875-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14923/15423 [12:51:16<25:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14923/15423 [12:51:16<25:50,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1880-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14924/15423 [12:51:18<25:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14924/15423 [12:51:18<25:47,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1885-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14925/15423 [12:51:20<25:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14925/15423 [12:51:20<25:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1890-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14926/15423 [12:51:22<25:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14926/15423 [12:51:22<25:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1895-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14927/15423 [12:51:26<25:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14927/15423 [12:51:26<25:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   28K Sep  1 14:30 shuffle-word-190-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14928/15423 [12:51:28<25:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14928/15423 [12:51:28<25:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1900-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14929/15423 [12:51:31<25:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14929/15423 [12:51:31<25:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1905-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14930/15423 [12:51:32<25:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14930/15423 [12:51:32<25:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1910-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14931/15423 [12:51:35<25:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14931/15423 [12:51:35<25:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-1915-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14932/15423 [12:51:36<25:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14932/15423 [12:51:36<25:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-1920-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14933/15423 [12:51:40<25:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-1925-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14933/15423 [12:51:40<25:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-1930-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14934/15423 [12:51:41<25:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14934/15423 [12:51:41<25:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1935-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14935/15423 [12:51:43<25:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14935/15423 [12:51:43<25:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1940-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14936/15423 [12:51:47<25:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14936/15423 [12:51:47<25:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1945-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14937/15423 [12:51:52<25:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14937/15423 [12:51:52<25:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-195-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14938/15423 [12:51:55<25:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14938/15423 [12:51:55<25:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1950-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14939/15423 [12:51:56<25:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14939/15423 [12:51:56<25:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1955-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14940/15423 [12:51:59<24:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14940/15423 [12:51:59<24:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-1960-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14941/15423 [12:52:02<24:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14941/15423 [12:52:02<24:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1965-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14942/15423 [12:52:03<24:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14942/15423 [12:52:03<24:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1970-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14943/15423 [12:52:07<24:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1975-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14943/15423 [12:52:07<24:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-1980-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14944/15423 [12:52:36<24:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14944/15423 [12:52:36<24:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-1985-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14945/15423 [12:52:37<24:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14945/15423 [12:52:37<24:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-1990-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14946/15423 [12:52:38<24:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14946/15423 [12:52:38<24:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-1995-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14947/15423 [12:52:40<24:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14947/15423 [12:52:40<24:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   38K Sep  1 14:30 shuffle-word-20-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14948/15423 [12:52:44<24:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14948/15423 [12:52:44<24:33,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-200-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14949/15423 [12:52:47<24:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14949/15423 [12:52:47<24:30,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2000-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14950/15423 [12:52:48<24:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14950/15423 [12:52:48<24:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-2005-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14951/15423 [12:52:50<24:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14951/15423 [12:52:50<24:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-2010-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14952/15423 [12:52:53<24:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14952/15423 [12:52:53<24:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-2015-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14953/15423 [12:52:57<24:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14953/15423 [12:52:57<24:17,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-2020-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14954/15423 [12:53:01<24:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14954/15423 [12:53:01<24:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2025-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14955/15423 [12:53:03<24:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14955/15423 [12:53:03<24:11,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-2030-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14956/15423 [12:53:07<24:08,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-2035-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14956/15423 [12:53:07<24:08,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2040-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14957/15423 [12:53:11<24:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14957/15423 [12:53:11<24:05,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2045-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14958/15423 [12:53:15<24:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14958/15423 [12:53:15<24:02,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-205-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14959/15423 [12:53:17<23:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14959/15423 [12:53:17<23:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2050-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14960/15423 [12:53:21<23:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14960/15423 [12:53:21<23:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2055-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14961/15423 [12:53:22<23:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14961/15423 [12:53:22<23:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2060-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14962/15423 [12:53:25<23:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14962/15423 [12:53:25<23:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2065-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14963/15423 [12:53:25<23:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14963/15423 [12:53:25<23:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-2070-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14964/15423 [12:53:29<23:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14964/15423 [12:53:29<23:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-2075-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14965/15423 [12:53:31<23:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14965/15423 [12:53:31<23:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2080-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14966/15423 [12:53:35<23:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14966/15423 [12:53:35<23:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2085-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14967/15423 [12:53:37<23:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14967/15423 [12:53:37<23:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2090-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14968/15423 [12:53:38<23:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14968/15423 [12:53:38<23:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-2095-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14969/15423 [12:53:42<23:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14969/15423 [12:53:42<23:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-210-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14970/15423 [12:53:47<23:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14970/15423 [12:53:47<23:24,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2100-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14971/15423 [12:53:51<23:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14971/15423 [12:53:51<23:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2105-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14972/15423 [12:53:53<23:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14972/15423 [12:53:53<23:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-2110-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14973/15423 [12:53:55<23:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14973/15423 [12:53:55<23:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-2115-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14974/15423 [12:53:57<23:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14974/15423 [12:53:57<23:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-2120-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14975/15423 [12:53:59<23:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14975/15423 [12:53:59<23:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-2125-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14976/15423 [12:54:11<23:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2130-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14976/15423 [12:54:11<23:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2135-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14977/15423 [12:54:14<23:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14977/15423 [12:54:14<23:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2140-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14978/15423 [12:54:16<23:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14978/15423 [12:54:16<23:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-2145-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14979/15423 [12:54:19<22:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14979/15423 [12:54:19<22:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   28K Sep  1 14:30 shuffle-word-215-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14980/15423 [12:54:21<22:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14980/15423 [12:54:21<22:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-2150-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14981/15423 [12:54:24<22:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14981/15423 [12:54:24<22:50,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-2155-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14982/15423 [12:54:25<22:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14982/15423 [12:54:25<22:47,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-2160-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14983/15423 [12:54:28<22:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14983/15423 [12:54:28<22:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2165-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14984/15423 [12:54:28<22:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14984/15423 [12:54:28<22:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2170-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14985/15423 [12:54:33<22:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14985/15423 [12:54:33<22:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2175-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14986/15423 [12:54:37<22:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14986/15423 [12:54:37<22:35,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  517K Sep  1 14:30 shuffle-word-2180-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14987/15423 [12:54:39<22:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14987/15423 [12:54:39<22:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-2185-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14988/15423 [12:54:41<22:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14988/15423 [12:54:41<22:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-2190-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14989/15423 [12:54:44<22:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14989/15423 [12:54:44<22:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2195-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14990/15423 [12:54:45<22:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14990/15423 [12:54:45<22:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-220-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14991/15423 [12:54:46<22:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14991/15423 [12:54:46<22:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2200-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14992/15423 [12:54:47<22:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14992/15423 [12:54:47<22:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2205-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14993/15423 [12:54:52<22:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14993/15423 [12:54:52<22:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2210-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14994/15423 [12:54:53<22:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14994/15423 [12:54:53<22:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-2215-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14995/15423 [12:54:55<22:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14995/15423 [12:54:55<22:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-2220-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14996/15423 [12:54:56<22:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14996/15423 [12:54:56<22:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-2225-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14997/15423 [12:54:59<22:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14997/15423 [12:54:59<22:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2230-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14998/15423 [12:55:01<21:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2235-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14998/15423 [12:55:01<21:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2240-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 14999/15423 [12:55:04<21:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 14999/15423 [12:55:04<21:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2245-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15000/15423 [12:55:06<21:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15000/15423 [12:55:06<21:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   28K Sep  1 14:30 shuffle-word-225-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15001/15423 [12:55:07<21:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15001/15423 [12:55:07<21:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-2250-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15002/15423 [12:55:11<21:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15002/15423 [12:55:11<21:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-2255-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15003/15423 [12:55:13<21:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15003/15423 [12:55:13<21:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2260-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15004/15423 [12:55:15<21:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15004/15423 [12:55:15<21:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2265-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15005/15423 [12:55:19<21:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15005/15423 [12:55:19<21:35,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2270-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15006/15423 [12:55:23<21:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15006/15423 [12:55:23<21:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2275-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15007/15423 [12:55:25<21:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15007/15423 [12:55:25<21:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-2280-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15008/15423 [12:55:50<21:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15008/15423 [12:55:50<21:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-2285-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15009/15423 [12:55:54<21:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15009/15423 [12:55:54<21:24,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-2290-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15010/15423 [12:55:57<21:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2295-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15010/15423 [12:55:57<21:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-230-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15011/15423 [12:55:59<21:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15011/15423 [12:55:59<21:17,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  517K Sep  1 14:30 shuffle-word-2300-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15012/15423 [12:56:03<21:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2305-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15012/15423 [12:56:03<21:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-2310-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15013/15423 [12:56:05<21:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15013/15423 [12:56:05<21:11,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-2315-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15014/15423 [12:56:06<21:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15014/15423 [12:56:06<21:08,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-2320-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15015/15423 [12:56:08<21:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15015/15423 [12:56:08<21:05,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-2325-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15016/15423 [12:56:11<21:02,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-2330-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15016/15423 [12:56:11<21:02,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2335-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15017/15423 [12:56:14<20:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15017/15423 [12:56:14<20:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2340-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15018/15423 [12:56:15<20:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15018/15423 [12:56:15<20:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-2345-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15019/15423 [12:56:17<20:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15019/15423 [12:56:17<20:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-235-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15020/15423 [12:56:21<20:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15020/15423 [12:56:21<20:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2350-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15021/15423 [12:56:23<20:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15021/15423 [12:56:23<20:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-2355-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15022/15423 [12:56:27<20:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15022/15423 [12:56:27<20:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2360-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15023/15423 [12:56:29<20:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15023/15423 [12:56:29<20:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2365-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15024/15423 [12:56:33<20:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15024/15423 [12:56:33<20:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2370-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15025/15423 [12:56:34<20:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15025/15423 [12:56:34<20:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2375-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15026/15423 [12:56:37<20:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15026/15423 [12:56:37<20:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2380-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15027/15423 [12:56:38<20:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15027/15423 [12:56:38<20:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2385-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15028/15423 [12:56:39<20:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15028/15423 [12:56:39<20:24,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2390-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15029/15423 [12:56:40<20:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15029/15423 [12:56:40<20:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2395-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15030/15423 [12:56:43<20:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15030/15423 [12:56:43<20:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-240-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15031/15423 [12:56:45<20:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15031/15423 [12:56:45<20:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-2400-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15032/15423 [12:56:48<20:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15032/15423 [12:56:48<20:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  516K Sep  1 14:30 shuffle-word-2405-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15033/15423 [12:56:51<20:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15033/15423 [12:56:51<20:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2410-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15034/15423 [12:56:52<20:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15034/15423 [12:56:52<20:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-2415-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15035/15423 [12:56:56<20:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15035/15423 [12:56:56<20:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  515K Sep  1 14:30 shuffle-word-2420-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15036/15423 [12:57:00<19:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15036/15423 [12:57:00<19:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-2425-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  97%|▉| 15037/15423 [12:57:02<19:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  97%|▉| 15037/15423 [12:57:02<19:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  516K Sep  1 14:30 shuffle-word-2430-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15038/15423 [12:57:05<19:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15038/15423 [12:57:05<19:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2435-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15039/15423 [12:57:09<19:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15039/15423 [12:57:09<19:50,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2440-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15040/15423 [12:57:19<19:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15040/15423 [12:57:19<19:47,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2445-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15041/15423 [12:57:24<19:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15041/15423 [12:57:24<19:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   28K Sep  1 14:30 shuffle-word-245-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15042/15423 [12:57:25<19:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15042/15423 [12:57:25<19:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2450-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15043/15423 [12:57:29<19:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15043/15423 [12:57:29<19:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  516K Sep  1 14:30 shuffle-word-2455-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15044/15423 [12:57:33<19:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15044/15423 [12:57:33<19:35,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-2460-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15045/15423 [12:57:33<19:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15045/15423 [12:57:33<19:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-2465-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15046/15423 [12:57:37<19:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15046/15423 [12:57:37<19:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  518K Sep  1 14:30 shuffle-word-2470-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15047/15423 [12:57:38<19:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15047/15423 [12:57:38<19:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  516K Sep  1 14:30 shuffle-word-2475-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15048/15423 [12:57:42<19:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15048/15423 [12:57:42<19:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2480-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15049/15423 [12:57:45<19:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15049/15423 [12:57:45<19:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  516K Sep  1 14:30 shuffle-word-2485-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15050/15423 [12:57:46<19:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15050/15423 [12:57:46<19:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-2490-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15051/15423 [12:57:50<19:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15051/15423 [12:57:50<19:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  517K Sep  1 14:30 shuffle-word-2495-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15052/15423 [12:57:53<19:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15052/15423 [12:57:53<19:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   36K Sep  1 14:30 shuffle-word-25-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15053/15423 [12:57:55<19:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15053/15423 [12:57:55<19:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-250-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15054/15423 [12:57:58<19:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15054/15423 [12:57:58<19:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-2500-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15055/15423 [12:58:00<19:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15055/15423 [12:58:00<19:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  516K Sep  1 14:30 shuffle-word-2505-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15056/15423 [12:58:04<18:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15056/15423 [12:58:04<18:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  515K Sep  1 14:30 shuffle-word-2510-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15057/15423 [12:58:08<18:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  514K Sep  1 14:30 shuffle-word-2515-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15057/15423 [12:58:08<18:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  516K Sep  1 14:30 shuffle-word-2520-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15058/15423 [12:58:09<18:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15058/15423 [12:58:09<18:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  515K Sep  1 14:30 shuffle-word-2525-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15059/15423 [12:58:10<18:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15059/15423 [12:58:10<18:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  516K Sep  1 14:30 shuffle-word-2530-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15060/15423 [12:58:12<18:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15060/15423 [12:58:12<18:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  513K Sep  1 14:30 shuffle-word-2535-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15061/15423 [12:58:14<18:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15061/15423 [12:58:14<18:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  514K Sep  1 14:30 shuffle-word-2540-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15062/15423 [12:58:18<18:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15062/15423 [12:58:18<18:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  513K Sep  1 14:30 shuffle-word-2545-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15063/15423 [12:58:22<18:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15063/15423 [12:58:22<18:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-255-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15064/15423 [12:58:23<18:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15064/15423 [12:58:23<18:33,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  513K Sep  1 14:30 shuffle-word-2550-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15065/15423 [12:58:26<18:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15065/15423 [12:58:26<18:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  514K Sep  1 14:30 shuffle-word-2555-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|��| 15066/15423 [12:58:26<18:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15066/15423 [12:58:26<18:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  517K Sep  1 14:30 shuffle-word-2560-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15067/15423 [12:58:29<18:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15067/15423 [12:58:29<18:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  514K Sep  1 14:30 shuffle-word-2565-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15068/15423 [12:58:33<18:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15068/15423 [12:58:33<18:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  514K Sep  1 14:30 shuffle-word-2570-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15069/15423 [12:58:37<18:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15069/15423 [12:58:37<18:17,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  512K Sep  1 14:30 shuffle-word-2575-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15070/15423 [12:58:39<18:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15070/15423 [12:58:39<18:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  517K Sep  1 14:30 shuffle-word-2580-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15071/15423 [12:58:41<18:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15071/15423 [12:58:41<18:11,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  515K Sep  1 14:30 shuffle-word-2585-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15072/15423 [12:58:50<18:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15072/15423 [12:58:50<18:08,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  514K Sep  1 14:30 shuffle-word-2590-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15073/15423 [12:58:53<18:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15073/15423 [12:58:53<18:05,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  515K Sep  1 14:30 shuffle-word-2595-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15074/15423 [12:58:57<18:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15074/15423 [12:58:57<18:02,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-260-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15075/15423 [12:59:01<17:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15075/15423 [12:59:01<17:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  515K Sep  1 14:30 shuffle-word-2600-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15076/15423 [12:59:04<17:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15076/15423 [12:59:04<17:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  510K Sep  1 14:30 shuffle-word-2605-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15077/15423 [12:59:05<17:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15077/15423 [12:59:05<17:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  510K Sep  1 14:30 shuffle-word-2610-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15078/15423 [12:59:09<17:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15078/15423 [12:59:09<17:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  512K Sep  1 14:30 shuffle-word-2615-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15079/15423 [12:59:12<17:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15079/15423 [12:59:12<17:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  510K Sep  1 14:30 shuffle-word-2620-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15080/15423 [12:59:15<17:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15080/15423 [12:59:15<17:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  510K Sep  1 14:30 shuffle-word-2625-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15081/15423 [12:59:18<17:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2630-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15081/15423 [12:59:18<17:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  512K Sep  1 14:30 shuffle-word-2635-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15082/15423 [12:59:21<17:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15082/15423 [12:59:21<17:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  511K Sep  1 14:30 shuffle-word-2640-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15083/15423 [12:59:22<17:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15083/15423 [12:59:22<17:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  513K Sep  1 14:30 shuffle-word-2645-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15084/15423 [12:59:26<17:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15084/15423 [12:59:26<17:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-265-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15085/15423 [12:59:26<17:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15085/15423 [12:59:26<17:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  512K Sep  1 14:30 shuffle-word-2650-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15086/15423 [12:59:31<17:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15086/15423 [12:59:31<17:24,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  510K Sep  1 14:30 shuffle-word-2655-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15087/15423 [12:59:34<17:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15087/15423 [12:59:34<17:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  511K Sep  1 14:30 shuffle-word-2660-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15088/15423 [12:59:35<17:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15088/15423 [12:59:35<17:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  511K Sep  1 14:30 shuffle-word-2665-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15089/15423 [12:59:36<17:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15089/15423 [12:59:36<17:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  513K Sep  1 14:30 shuffle-word-2670-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15090/15423 [12:59:37<17:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15090/15423 [12:59:37<17:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  515K Sep  1 14:30 shuffle-word-2675-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15091/15423 [12:59:38<17:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15091/15423 [12:59:38<17:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  512K Sep  1 14:30 shuffle-word-2680-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15092/15423 [12:59:42<17:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  510K Sep  1 14:30 shuffle-word-2685-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15092/15423 [12:59:42<17:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  511K Sep  1 14:30 shuffle-word-2690-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15093/15423 [12:59:44<17:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15093/15423 [12:59:44<17:02,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  511K Sep  1 14:30 shuffle-word-2695-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15094/15423 [12:59:47<16:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15094/15423 [12:59:47<16:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-270-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15095/15423 [12:59:48<16:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15095/15423 [12:59:48<16:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  511K Sep  1 14:30 shuffle-word-2700-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15096/15423 [12:59:53<16:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15096/15423 [12:59:53<16:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2705-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15097/15423 [12:59:55<16:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15097/15423 [12:59:55<16:50,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2710-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15098/15423 [12:59:56<16:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15098/15423 [12:59:56<16:47,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2715-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15099/15423 [13:00:01<16:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15099/15423 [13:00:01<16:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2720-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15100/15423 [13:00:04<16:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15100/15423 [13:00:04<16:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2725-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15101/15423 [13:00:08<16:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15101/15423 [13:00:08<16:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  510K Sep  1 14:30 shuffle-word-2730-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15102/15423 [13:00:09<16:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15102/15423 [13:00:09<16:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2735-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15103/15423 [13:00:11<16:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15103/15423 [13:00:11<16:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  510K Sep  1 14:30 shuffle-word-2740-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15104/15423 [13:00:25<16:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15104/15423 [13:00:25<16:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  510K Sep  1 14:30 shuffle-word-2745-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15105/15423 [13:00:29<16:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15105/15423 [13:00:29<16:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   28K Sep  1 14:30 shuffle-word-275-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15106/15423 [13:00:32<16:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15106/15423 [13:00:32<16:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2750-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15107/15423 [13:00:33<16:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15107/15423 [13:00:33<16:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2755-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15108/15423 [13:00:37<16:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15108/15423 [13:00:37<16:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  510K Sep  1 14:30 shuffle-word-2760-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15109/15423 [13:00:41<16:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15109/15423 [13:00:41<16:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2765-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15110/15423 [13:00:43<16:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15110/15423 [13:00:43<16:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2770-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15111/15423 [13:00:47<16:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15111/15423 [13:00:47<16:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  511K Sep  1 14:30 shuffle-word-2775-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15112/15423 [13:00:50<16:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15112/15423 [13:00:50<16:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  510K Sep  1 14:30 shuffle-word-2780-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15113/15423 [13:00:52<16:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15113/15423 [13:00:52<16:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2785-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15114/15423 [13:00:54<15:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15114/15423 [13:00:54<15:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  511K Sep  1 14:30 shuffle-word-2790-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15115/15423 [13:00:59<15:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15115/15423 [13:00:59<15:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2795-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15116/15423 [13:01:01<15:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15116/15423 [13:01:01<15:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-280-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15117/15423 [13:01:02<15:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15117/15423 [13:01:02<15:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-2800-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15118/15423 [13:01:04<15:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15118/15423 [13:01:04<15:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-2805-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15119/15423 [13:01:06<15:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15119/15423 [13:01:06<15:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-2810-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15120/15423 [13:01:07<15:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15120/15423 [13:01:07<15:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2815-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15121/15423 [13:01:11<15:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15121/15423 [13:01:11<15:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2820-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15122/15423 [13:01:14<15:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15122/15423 [13:01:14<15:33,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2825-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15123/15423 [13:01:18<15:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15123/15423 [13:01:18<15:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2830-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15124/15423 [13:01:19<15:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15124/15423 [13:01:19<15:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2835-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15125/15423 [13:01:22<15:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15125/15423 [13:01:22<15:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2840-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15126/15423 [13:01:26<15:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15126/15423 [13:01:26<15:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-2845-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15127/15423 [13:01:29<15:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15127/15423 [13:01:29<15:17,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-285-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15128/15423 [13:01:29<15:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15128/15423 [13:01:29<15:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2850-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15129/15423 [13:01:32<15:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15129/15423 [13:01:32<15:11,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2855-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15130/15423 [13:01:34<15:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15130/15423 [13:01:34<15:08,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-2860-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15131/15423 [13:01:39<15:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15131/15423 [13:01:39<15:05,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-2865-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15132/15423 [13:01:42<15:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15132/15423 [13:01:42<15:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2870-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15133/15423 [13:01:45<14:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15133/15423 [13:01:45<14:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2875-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15134/15423 [13:01:48<14:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15134/15423 [13:01:48<14:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2880-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15135/15423 [13:01:50<14:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15135/15423 [13:01:50<14:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-2885-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15136/15423 [13:01:59<14:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15136/15423 [13:01:59<14:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2890-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15137/15423 [13:02:04<14:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15137/15423 [13:02:04<14:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2895-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15138/15423 [13:02:05<14:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15138/15423 [13:02:05<14:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-290-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15139/15423 [13:02:08<14:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15139/15423 [13:02:08<14:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2900-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15140/15423 [13:02:12<14:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15140/15423 [13:02:12<14:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2905-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15141/15423 [13:02:13<14:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15141/15423 [13:02:13<14:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2910-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15142/15423 [13:02:13<14:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15142/15423 [13:02:13<14:30,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-2915-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15143/15423 [13:02:17<14:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15143/15423 [13:02:17<14:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2920-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15144/15423 [13:02:19<14:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15144/15423 [13:02:19<14:24,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2925-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15145/15423 [13:02:22<14:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15145/15423 [13:02:22<14:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2930-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15146/15423 [13:02:27<14:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15146/15423 [13:02:27<14:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2935-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15147/15423 [13:02:27<14:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15147/15423 [13:02:27<14:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-2940-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15148/15423 [13:02:30<14:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15148/15423 [13:02:30<14:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-2945-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15149/15423 [13:02:32<14:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15149/15423 [13:02:32<14:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   26K Sep  1 14:30 shuffle-word-295-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15150/15423 [13:02:36<14:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15150/15423 [13:02:36<14:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2950-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15151/15423 [13:02:37<14:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15151/15423 [13:02:37<14:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2955-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15152/15423 [13:02:38<13:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15152/15423 [13:02:38<13:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2960-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15153/15423 [13:02:41<13:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15153/15423 [13:02:41<13:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2965-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15154/15423 [13:02:41<13:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15154/15423 [13:02:41<13:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2970-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15155/15423 [13:02:43<13:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15155/15423 [13:02:43<13:50,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2975-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15156/15423 [13:02:47<13:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15156/15423 [13:02:47<13:47,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2980-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15157/15423 [13:02:50<13:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15157/15423 [13:02:50<13:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2985-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15158/15423 [13:02:51<13:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15158/15423 [13:02:51<13:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2990-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15159/15423 [13:02:52<13:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15159/15423 [13:02:52<13:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-2995-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15160/15423 [13:02:54<13:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15160/15423 [13:02:54<13:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   35K Sep  1 14:30 shuffle-word-30-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15161/15423 [13:02:58<13:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15161/15423 [13:02:58<13:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-300-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15162/15423 [13:02:59<13:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15162/15423 [13:02:59<13:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3000-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15163/15423 [13:03:00<13:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15163/15423 [13:03:00<13:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3005-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15164/15423 [13:03:02<13:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15164/15423 [13:03:02<13:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3010-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15165/15423 [13:03:03<13:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15165/15423 [13:03:03<13:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3015-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15166/15423 [13:03:05<13:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15166/15423 [13:03:05<13:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3020-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15167/15423 [13:03:09<13:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15167/15423 [13:03:09<13:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3025-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15168/15423 [13:03:40<13:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15168/15423 [13:03:40<13:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3030-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15169/15423 [13:03:44<13:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15169/15423 [13:03:44<13:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3035-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15170/15423 [13:03:46<13:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15170/15423 [13:03:46<13:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3040-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15171/15423 [13:03:50<13:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15171/15423 [13:03:50<13:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3045-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15172/15423 [13:03:51<12:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15172/15423 [13:03:51<12:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   26K Sep  1 14:30 shuffle-word-305-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15173/15423 [13:03:55<12:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15173/15423 [13:03:55<12:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3050-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15174/15423 [13:04:00<12:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15174/15423 [13:04:00<12:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3055-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15175/15423 [13:04:03<12:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15175/15423 [13:04:03<12:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3060-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15176/15423 [13:04:06<12:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15176/15423 [13:04:06<12:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3065-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15177/15423 [13:04:09<12:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15177/15423 [13:04:09<12:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3070-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15178/15423 [13:04:10<12:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15178/15423 [13:04:10<12:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3075-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15179/15423 [13:04:14<12:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15179/15423 [13:04:14<12:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3080-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15180/15423 [13:04:17<12:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15180/15423 [13:04:17<12:33,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3085-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15181/15423 [13:04:21<12:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15181/15423 [13:04:21<12:30,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3090-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15182/15423 [13:04:22<12:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15182/15423 [13:04:22<12:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3095-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15183/15423 [13:04:26<12:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15183/15423 [13:04:26<12:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-310-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15184/15423 [13:04:27<12:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15184/15423 [13:04:27<12:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3100-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15185/15423 [13:04:30<12:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15185/15423 [13:04:30<12:17,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3105-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15186/15423 [13:04:32<12:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15186/15423 [13:04:32<12:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3110-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15187/15423 [13:04:36<12:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15187/15423 [13:04:36<12:11,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3115-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15188/15423 [13:04:39<12:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15188/15423 [13:04:39<12:08,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3120-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15189/15423 [13:04:42<12:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15189/15423 [13:04:42<12:05,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3125-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15190/15423 [13:04:43<12:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15190/15423 [13:04:43<12:02,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3130-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  98%|▉| 15191/15423 [13:04:45<11:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  98%|▉| 15191/15423 [13:04:45<11:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3135-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15192/15423 [13:04:47<11:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15192/15423 [13:04:47<11:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3140-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15193/15423 [13:04:49<11:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15193/15423 [13:04:49<11:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3145-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15194/15423 [13:04:51<11:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15194/15423 [13:04:51<11:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-315-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15195/15423 [13:04:55<11:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15195/15423 [13:04:55<11:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3150-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15196/15423 [13:04:58<11:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15196/15423 [13:04:58<11:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3155-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15197/15423 [13:05:00<11:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15197/15423 [13:05:00<11:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3160-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15198/15423 [13:05:02<11:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15198/15423 [13:05:02<11:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3165-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15199/15423 [13:05:05<11:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15199/15423 [13:05:05<11:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3170-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15200/15423 [13:05:16<11:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15200/15423 [13:05:16<11:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3175-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15201/15423 [13:05:39<11:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15201/15423 [13:05:39<11:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3180-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15202/15423 [13:05:41<11:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15202/15423 [13:05:41<11:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3185-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15203/15423 [13:05:43<11:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15203/15423 [13:05:43<11:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3190-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15204/15423 [13:05:46<11:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15204/15423 [13:05:46<11:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3195-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15205/15423 [13:05:50<11:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15205/15423 [13:05:50<11:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   28K Sep  1 14:30 shuffle-word-320-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15206/15423 [13:05:52<11:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15206/15423 [13:05:52<11:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3200-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15207/15423 [13:05:53<11:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15207/15423 [13:05:53<11:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3205-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15208/15423 [13:05:55<11:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15208/15423 [13:05:55<11:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3210-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15209/15423 [13:05:59<11:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15209/15423 [13:05:59<11:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3215-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15210/15423 [13:06:03<11:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15210/15423 [13:06:03<11:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3220-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15211/15423 [13:06:04<10:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15211/15423 [13:06:04<10:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3225-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15212/15423 [13:06:08<10:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15212/15423 [13:06:08<10:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3230-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15213/15423 [13:06:13<10:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15213/15423 [13:06:13<10:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3235-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15214/15423 [13:06:14<10:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15214/15423 [13:06:14<10:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3240-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15215/15423 [13:06:16<10:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15215/15423 [13:06:16<10:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3245-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15216/15423 [13:06:19<10:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15216/15423 [13:06:19<10:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-325-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15217/15423 [13:06:19<10:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15217/15423 [13:06:19<10:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3250-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15218/15423 [13:06:22<10:35,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3255-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15218/15423 [13:06:22<10:35,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3260-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15219/15423 [13:06:23<10:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15219/15423 [13:06:23<10:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3265-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15220/15423 [13:06:26<10:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15220/15423 [13:06:26<10:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3270-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15221/15423 [13:06:28<10:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15221/15423 [13:06:28<10:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3275-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15222/15423 [13:06:30<10:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15222/15423 [13:06:30<10:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3280-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15223/15423 [13:06:35<10:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15223/15423 [13:06:35<10:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3285-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15224/15423 [13:06:38<10:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15224/15423 [13:06:38<10:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3290-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15225/15423 [13:06:40<10:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15225/15423 [13:06:40<10:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3295-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15226/15423 [13:06:41<10:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15226/15423 [13:06:41<10:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-330-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15227/15423 [13:06:44<10:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15227/15423 [13:06:44<10:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3300-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15228/15423 [13:06:45<10:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15228/15423 [13:06:45<10:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3305-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15229/15423 [13:06:50<10:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3310-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15229/15423 [13:06:50<10:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3315-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15230/15423 [13:06:54<09:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15230/15423 [13:06:54<09:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3320-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15231/15423 [13:06:55<09:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15231/15423 [13:06:55<09:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3325-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15232/15423 [13:07:18<09:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15232/15423 [13:07:18<09:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3330-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15233/15423 [13:07:21<09:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15233/15423 [13:07:21<09:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3335-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15234/15423 [13:07:21<09:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15234/15423 [13:07:21<09:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3340-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15235/15423 [13:07:25<09:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3345-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15235/15423 [13:07:25<09:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   26K Sep  1 14:30 shuffle-word-335-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15236/15423 [13:07:27<09:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15236/15423 [13:07:27<09:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3350-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15237/15423 [13:07:30<09:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15237/15423 [13:07:30<09:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3355-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15238/15423 [13:07:32<09:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15238/15423 [13:07:32<09:33,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3360-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15239/15423 [13:07:35<09:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15239/15423 [13:07:35<09:30,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3365-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15240/15423 [13:07:36<09:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15240/15423 [13:07:36<09:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3370-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15241/15423 [13:07:40<09:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15241/15423 [13:07:40<09:24,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3375-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15242/15423 [13:07:44<09:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15242/15423 [13:07:44<09:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3380-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15243/15423 [13:07:47<09:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15243/15423 [13:07:47<09:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3385-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15244/15423 [13:07:49<09:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15244/15423 [13:07:49<09:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3390-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15245/15423 [13:07:51<09:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15245/15423 [13:07:51<09:11,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3395-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15246/15423 [13:07:56<09:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15246/15423 [13:07:56<09:08,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-340-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15247/15423 [13:07:58<09:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15247/15423 [13:07:58<09:05,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3400-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15248/15423 [13:08:01<09:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15248/15423 [13:08:01<09:02,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3405-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15249/15423 [13:08:05<08:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15249/15423 [13:08:05<08:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3410-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15250/15423 [13:08:08<08:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15250/15423 [13:08:08<08:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3415-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15251/15423 [13:08:12<08:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15251/15423 [13:08:12<08:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3420-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15252/15423 [13:08:14<08:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15252/15423 [13:08:14<08:50,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3425-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15253/15423 [13:08:15<08:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15253/15423 [13:08:15<08:47,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3430-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15254/15423 [13:08:16<08:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15254/15423 [13:08:16<08:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3435-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15255/15423 [13:08:18<08:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15255/15423 [13:08:18<08:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3440-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15256/15423 [13:08:20<08:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15256/15423 [13:08:20<08:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3445-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15257/15423 [13:08:23<08:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15257/15423 [13:08:23<08:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-345-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15258/15423 [13:08:26<08:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15258/15423 [13:08:26<08:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3450-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15259/15423 [13:08:28<08:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3455-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15259/15423 [13:08:28<08:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3460-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15260/15423 [13:08:31<08:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15260/15423 [13:08:31<08:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3465-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15261/15423 [13:08:33<08:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15261/15423 [13:08:33<08:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3470-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15262/15423 [13:08:35<08:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15262/15423 [13:08:35<08:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3475-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15263/15423 [13:08:39<08:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15263/15423 [13:08:39<08:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3480-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15264/15423 [13:08:51<08:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15264/15423 [13:08:51<08:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3485-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15265/15423 [13:08:52<08:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15265/15423 [13:08:52<08:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3490-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15266/15423 [13:08:56<08:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3495-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15266/15423 [13:08:56<08:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   31K Sep  1 14:30 shuffle-word-35-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15267/15423 [13:08:58<08:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15267/15423 [13:08:58<08:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-350-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15268/15423 [13:09:00<08:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15268/15423 [13:09:00<08:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3500-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15269/15423 [13:09:03<07:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15269/15423 [13:09:03<07:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3505-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15270/15423 [13:09:06<07:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15270/15423 [13:09:06<07:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3510-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15271/15423 [13:09:08<07:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15271/15423 [13:09:08<07:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3515-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15272/15423 [13:09:09<07:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15272/15423 [13:09:09<07:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3520-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15273/15423 [13:09:10<07:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15273/15423 [13:09:11<07:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3525-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15274/15423 [13:09:15<07:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15274/15423 [13:09:15<07:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3530-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15275/15423 [13:09:18<07:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3535-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15275/15423 [13:09:18<07:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3540-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15276/15423 [13:09:20<07:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15276/15423 [13:09:20<07:35,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3545-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15277/15423 [13:09:25<07:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   26K Sep  1 14:30 shuffle-word-355-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15277/15423 [13:09:25<07:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3550-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15278/15423 [13:09:27<07:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15278/15423 [13:09:27<07:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3555-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15279/15423 [13:09:29<07:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15279/15423 [13:09:29<07:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3560-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15280/15423 [13:09:32<07:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15280/15423 [13:09:32<07:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3565-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15281/15423 [13:09:33<07:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15281/15423 [13:09:33<07:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3570-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15282/15423 [13:09:35<07:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15282/15423 [13:09:35<07:17,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3575-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15283/15423 [13:09:37<07:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15283/15423 [13:09:37<07:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3580-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15284/15423 [13:09:38<07:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15284/15423 [13:09:38<07:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3585-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15285/15423 [13:09:43<07:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15285/15423 [13:09:43<07:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3590-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15286/15423 [13:09:47<07:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15286/15423 [13:09:47<07:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3595-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15287/15423 [13:09:49<07:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15287/15423 [13:09:49<07:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-360-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15288/15423 [13:09:50<06:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15288/15423 [13:09:50<06:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3600-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15289/15423 [13:09:54<06:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15289/15423 [13:09:54<06:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3605-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15290/15423 [13:09:58<06:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15290/15423 [13:09:58<06:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3610-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15291/15423 [13:09:59<06:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15291/15423 [13:09:59<06:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3615-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15292/15423 [13:10:03<06:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15292/15423 [13:10:03<06:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3620-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15293/15423 [13:10:04<06:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15293/15423 [13:10:04<06:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3625-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15294/15423 [13:10:08<06:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15294/15423 [13:10:08<06:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3630-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15295/15423 [13:10:09<06:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15295/15423 [13:10:09<06:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3635-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15296/15423 [13:10:22<06:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15296/15423 [13:10:22<06:33,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3640-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15297/15423 [13:10:24<06:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15297/15423 [13:10:24<06:30,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3645-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15298/15423 [13:10:26<06:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15298/15423 [13:10:26<06:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   26K Sep  1 14:30 shuffle-word-365-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15299/15423 [13:10:28<06:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15299/15423 [13:10:28<06:24,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3650-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15300/15423 [13:10:33<06:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15300/15423 [13:10:33<06:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3655-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15301/15423 [13:10:34<06:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15301/15423 [13:10:34<06:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3660-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15302/15423 [13:10:36<06:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15302/15423 [13:10:36<06:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3665-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15303/15423 [13:10:40<06:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15303/15423 [13:10:40<06:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3670-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15304/15423 [13:10:45<06:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15304/15423 [13:10:45<06:08,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3675-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15305/15423 [13:10:46<06:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15305/15423 [13:10:46<06:05,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3680-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15306/15423 [13:10:48<06:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15306/15423 [13:10:48<06:02,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3685-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15307/15423 [13:10:52<05:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15307/15423 [13:10:52<05:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3690-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15308/15423 [13:10:53<05:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15308/15423 [13:10:53<05:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3695-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15309/15423 [13:10:54<05:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15309/15423 [13:10:54<05:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   26K Sep  1 14:30 shuffle-word-370-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15310/15423 [13:10:57<05:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15310/15423 [13:10:57<05:50,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3700-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15311/15423 [13:10:58<05:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15311/15423 [13:10:58<05:47,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3705-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15312/15423 [13:11:01<05:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15312/15423 [13:11:01<05:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3710-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15313/15423 [13:11:04<05:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15313/15423 [13:11:04<05:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3715-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15314/15423 [13:11:09<05:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15314/15423 [13:11:09<05:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3720-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15315/15423 [13:11:10<05:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15315/15423 [13:11:10<05:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3725-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15316/15423 [13:11:14<05:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15316/15423 [13:11:14<05:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3730-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15317/15423 [13:11:17<05:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15317/15423 [13:11:17<05:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3735-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15318/15423 [13:11:21<05:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15318/15423 [13:11:21<05:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3740-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15319/15423 [13:11:22<05:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15319/15423 [13:11:22<05:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3745-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15320/15423 [13:11:23<05:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15320/15423 [13:11:23<05:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-375-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15321/15423 [13:11:24<05:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15321/15423 [13:11:24<05:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3750-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15322/15423 [13:11:29<05:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15322/15423 [13:11:29<05:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3755-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15323/15423 [13:11:30<05:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15323/15423 [13:11:30<05:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3760-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15324/15423 [13:11:33<05:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15324/15423 [13:11:33<05:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3765-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15325/15423 [13:11:35<05:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15325/15423 [13:11:35<05:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3770-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15326/15423 [13:11:38<05:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15326/15423 [13:11:38<05:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3775-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15327/15423 [13:11:39<04:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15327/15423 [13:11:39<04:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3780-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15328/15423 [13:12:04<04:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15328/15423 [13:12:04<04:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3785-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15329/15423 [13:12:05<04:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15329/15423 [13:12:05<04:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3790-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15330/15423 [13:12:06<04:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15330/15423 [13:12:06<04:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3795-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15331/15423 [13:12:07<04:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15331/15423 [13:12:07<04:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-380-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15332/15423 [13:12:09<04:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15332/15423 [13:12:09<04:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3800-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15333/15423 [13:12:12<04:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15333/15423 [13:12:12<04:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3805-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15334/15423 [13:12:16<04:35,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15334/15423 [13:12:16<04:35,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3810-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15335/15423 [13:12:21<04:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15335/15423 [13:12:21<04:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3815-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15336/15423 [13:12:22<04:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15336/15423 [13:12:22<04:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3820-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15337/15423 [13:12:26<04:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15337/15423 [13:12:26<04:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3825-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15338/15423 [13:12:29<04:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15338/15423 [13:12:29<04:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3830-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15339/15423 [13:12:30<04:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15339/15423 [13:12:30<04:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3835-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15340/15423 [13:12:33<04:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15340/15423 [13:12:33<04:17,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3840-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15341/15423 [13:12:35<04:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15341/15423 [13:12:35<04:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3845-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15342/15423 [13:12:38<04:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15342/15423 [13:12:38<04:11,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-385-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15343/15423 [13:12:41<04:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15343/15423 [13:12:41<04:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3850-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15344/15423 [13:12:45<04:04,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15344/15423 [13:12:45<04:04,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3855-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0:  99%|▉| 15345/15423 [13:12:46<04:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0:  99%|▉| 15345/15423 [13:12:46<04:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3860-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15346/15423 [13:12:50<03:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15346/15423 [13:12:50<03:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3865-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15347/15423 [13:12:52<03:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3870-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15347/15423 [13:12:52<03:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3875-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15348/15423 [13:12:55<03:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15348/15423 [13:12:55<03:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3880-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15349/15423 [13:12:58<03:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15349/15423 [13:12:58<03:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3885-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15350/15423 [13:13:00<03:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15350/15423 [13:13:00<03:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3890-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15351/15423 [13:13:01<03:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15351/15423 [13:13:01<03:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3895-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15352/15423 [13:13:03<03:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15352/15423 [13:13:03<03:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-390-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15353/15423 [13:13:06<03:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15353/15423 [13:13:06<03:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3900-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15354/15423 [13:13:07<03:33,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15354/15423 [13:13:07<03:33,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3905-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15355/15423 [13:13:11<03:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15355/15423 [13:13:11<03:30,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3910-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15356/15423 [13:13:14<03:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15356/15423 [13:13:14<03:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3915-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15357/15423 [13:13:16<03:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15357/15423 [13:13:16<03:24,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3920-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15358/15423 [13:13:20<03:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15358/15423 [13:13:20<03:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3925-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15359/15423 [13:13:22<03:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15359/15423 [13:13:22<03:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3930-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15360/15423 [13:13:43<03:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15360/15423 [13:13:43<03:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3935-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15361/15423 [13:13:46<03:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15361/15423 [13:13:46<03:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3940-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15362/15423 [13:13:49<03:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15362/15423 [13:13:49<03:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3945-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15363/15423 [13:13:50<03:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15363/15423 [13:13:50<03:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-395-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15364/15423 [13:13:52<03:02,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15364/15423 [13:13:52<03:02,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3950-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15365/15423 [13:13:52<02:59,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15365/15423 [13:13:52<02:59,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3955-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15366/15423 [13:13:54<02:56,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15366/15423 [13:13:54<02:56,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3960-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15367/15423 [13:13:55<02:53,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15367/15423 [13:13:55<02:53,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3965-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15368/15423 [13:13:57<02:50,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15368/15423 [13:13:57<02:50,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3970-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15369/15423 [13:13:59<02:47,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15369/15423 [13:13:59<02:47,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  508K Sep  1 14:30 shuffle-word-3975-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15370/15423 [13:14:03<02:44,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15370/15423 [13:14:03<02:44,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3980-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15371/15423 [13:14:07<02:41,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15371/15423 [13:14:07<02:41,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3985-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15372/15423 [13:14:11<02:38,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15372/15423 [13:14:11<02:38,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3990-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15373/15423 [13:14:16<02:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15373/15423 [13:14:16<02:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-3995-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15374/15423 [13:14:18<02:31,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15374/15423 [13:14:18<02:31,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   31K Sep  1 14:30 shuffle-word-40-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15375/15423 [13:14:21<02:28,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15375/15423 [13:14:21<02:28,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-400-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15376/15423 [13:14:23<02:25,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15376/15423 [13:14:23<02:25,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  509K Sep  1 14:30 shuffle-word-4000-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15377/15423 [13:14:26<02:22,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15377/15423 [13:14:26<02:22,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-405-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15378/15423 [13:14:29<02:19,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15378/15423 [13:14:29<02:19,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-410-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15379/15423 [13:14:32<02:16,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15379/15423 [13:14:32<02:16,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-415-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15380/15423 [13:14:36<02:13,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15380/15423 [13:14:36<02:13,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   28K Sep  1 14:30 shuffle-word-420-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15381/15423 [13:14:39<02:10,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15381/15423 [13:14:39<02:10,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   26K Sep  1 14:30 shuffle-word-425-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15382/15423 [13:14:41<02:07,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15382/15423 [13:14:41<02:07,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   26K Sep  1 14:30 shuffle-word-430-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15383/15423 [13:14:42<02:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15383/15423 [13:14:42<02:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-435-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15384/15423 [13:14:44<02:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15384/15423 [13:14:44<02:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   26K Sep  1 14:30 shuffle-word-440-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15385/15423 [13:14:48<01:57,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15385/15423 [13:14:48<01:57,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-445-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15386/15423 [13:14:50<01:54,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15386/15423 [13:14:50<01:54,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   31K Sep  1 14:30 shuffle-word-45-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15387/15423 [13:14:54<01:51,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15387/15423 [13:14:54<01:51,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   26K Sep  1 14:30 shuffle-word-450-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15388/15423 [13:14:57<01:48,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15388/15423 [13:14:57<01:48,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   26K Sep  1 14:30 shuffle-word-455-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15389/15423 [13:15:02<01:45,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15389/15423 [13:15:02<01:45,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-460-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15390/15423 [13:15:03<01:42,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15390/15423 [13:15:03<01:42,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-465-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15391/15423 [13:15:05<01:39,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15391/15423 [13:15:05<01:39,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-470-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15392/15423 [13:15:14<01:36,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15392/15423 [13:15:14<01:36,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-475-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15393/15423 [13:15:17<01:32,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15393/15423 [13:15:17<01:32,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   26K Sep  1 14:30 shuffle-word-480-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15394/15423 [13:15:20<01:29,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15394/15423 [13:15:20<01:29,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-485-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15395/15423 [13:15:24<01:26,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15395/15423 [13:15:24<01:26,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-490-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15396/15423 [13:15:27<01:23,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15396/15423 [13:15:27<01:23,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   27K Sep  1 14:30 shuffle-word-495-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15397/15423 [13:15:30<01:20,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15397/15423 [13:15:30<01:20,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   86K Sep  1 14:30 shuffle-word-5-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15398/15423 [13:15:34<01:17,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15398/15423 [13:15:34<01:17,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   30K Sep  1 14:30 shuffle-word-50-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15399/15423 [13:15:34<01:14,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15399/15423 [13:15:34<01:14,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   28K Sep  1 14:30 shuffle-word-500-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15400/15423 [13:15:37<01:11,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15400/15423 [13:15:37<01:11,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  526K Sep  1 14:30 shuffle-word-505-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15401/15423 [13:15:40<01:08,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15401/15423 [13:15:40<01:08,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  526K Sep  1 14:30 shuffle-word-510-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15402/15423 [13:15:43<01:05,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15402/15423 [13:15:43<01:05,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  525K Sep  1 14:30 shuffle-word-515-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15403/15423 [13:15:47<01:01,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15403/15423 [13:15:47<01:01,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  526K Sep  1 14:30 shuffle-word-520-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15404/15423 [13:15:47<00:58,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15404/15423 [13:15:47<00:58,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  527K Sep  1 14:30 shuffle-word-525-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15405/15423 [13:15:50<00:55,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15405/15423 [13:15:50<00:55,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-530-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15406/15423 [13:15:54<00:52,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15406/15423 [13:15:54<00:52,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  528K Sep  1 14:30 shuffle-word-535-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15407/15423 [13:15:57<00:49,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15407/15423 [13:15:57<00:49,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  530K Sep  1 14:30 shuffle-word-540-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15408/15423 [13:16:01<00:46,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15408/15423 [13:16:01<00:46,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-545-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15409/15423 [13:16:05<00:43,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15409/15423 [13:16:05<00:43,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   31K Sep  1 14:30 shuffle-word-55-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15410/15423 [13:16:09<00:40,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15410/15423 [13:16:09<00:40,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  528K Sep  1 14:30 shuffle-word-550-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15411/15423 [13:16:12<00:37,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15411/15423 [13:16:12<00:37,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  527K Sep  1 14:30 shuffle-word-555-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15412/15423 [13:16:15<00:34,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15412/15423 [13:16:15<00:34,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  525K Sep  1 14:30 shuffle-word-560-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15413/15423 [13:16:18<00:30,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15413/15423 [13:16:18<00:30,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  527K Sep  1 14:30 shuffle-word-565-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15414/15423 [13:16:22<00:27,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15414/15423 [13:16:22<00:27,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  528K Sep  1 14:30 shuffle-word-570-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15415/15423 [13:16:26<00:24,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15415/15423 [13:16:26<00:24,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  526K Sep  1 14:30 shuffle-word-575-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15416/15423 [13:16:27<00:21,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15416/15423 [13:16:27<00:21,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  527K Sep  1 14:30 shuffle-word-580-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15417/15423 [13:16:29<00:18,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15417/15423 [13:16:29<00:18,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  527K Sep  1 14:30 shuffle-word-585-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15418/15423 [13:16:31<00:15,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15418/15423 [13:16:31<00:15,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  529K Sep  1 14:30 shuffle-word-590-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15419/15423 [13:16:33<00:12,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15419/15423 [13:16:33<00:12,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-595-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15420/15423 [13:16:37<00:09,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15420/15423 [13:16:37<00:09,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root   31K Sep  1 14:30 shuffle-word-60-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15421/15423 [13:16:41<00:06,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15421/15423 [13:16:41<00:06,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-600-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|▉| 15422/15423 [13:16:42<00:03,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|▉| 15422/15423 [13:16:42<00:03,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  528K Sep  1 14:30 shuffle-word-605-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|█| 15423/15423 [13:16:45<00:00,  3.10s/it, v_num=ufwn, train/loss=\r",
-      "Epoch 0: 100%|█| 15423/15423 [13:16:45<00:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-610-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r\n",
-      "\r",
-      "Validation: 0it [00:00, ?it/s]\u001b[A\r\n",
-      "\r",
-      "Validation:   0%|                                        | 0/16 [00:00<?, ?it/s]\u001b[A\r\n",
-      "\r",
-      "Validation DataLoader 0:   0%|                           | 0/16 [00:00<?, ?it/s]\u001b[A"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-615-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r\n",
-      "\r",
-      "Validation DataLoader 0:   6%|█▏                 | 1/16 [00:00<00:13,  1.12it/s]\u001b[A"
+      "-rw-r--r--  1 root root  525K Sep  1 14:30 shuffle-word-620-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r\n",
-      "\r",
-      "Validation DataLoader 0:  12%|██▍                | 2/16 [00:01<00:09,  1.49it/s]\u001b[A"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-625-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r\n",
-      "\r",
-      "Validation DataLoader 0:  19%|███▌               | 3/16 [00:02<00:11,  1.15it/s]\u001b[A"
+      "-rw-r--r--  1 root root  526K Sep  1 14:30 shuffle-word-630-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r\n",
-      "\r",
-      "Validation DataLoader 0:  25%|████▊              | 4/16 [00:03<00:09,  1.33it/s]\u001b[A"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-635-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r\n",
-      "\r",
-      "Validation DataLoader 0:  31%|█████▉             | 5/16 [00:03<00:07,  1.46it/s]\u001b[A"
+      "-rw-r--r--  1 root root  525K Sep  1 14:30 shuffle-word-640-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r\n",
-      "\r",
-      "Validation DataLoader 0:  38%|███████▏           | 6/16 [00:04<00:07,  1.33it/s]\u001b[A"
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-645-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r\n",
-      "\r",
-      "Validation DataLoader 0:  44%|████████▎          | 7/16 [00:05<00:07,  1.28it/s]\u001b[A"
+      "-rw-r--r--  1 root root   31K Sep  1 14:30 shuffle-word-65-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r\n",
-      "\r",
-      "Validation DataLoader 0:  50%|█████████▌         | 8/16 [00:06<00:06,  1.17it/s]\u001b[A"
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-650-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r\n",
-      "\r",
-      "Validation DataLoader 0:  56%|██████████▋        | 9/16 [00:07<00:06,  1.14it/s]\u001b[A"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-655-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r\n",
-      "\r",
-      "Validation DataLoader 0:  62%|███████████▎      | 10/16 [00:08<00:05,  1.17it/s]\u001b[A"
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-660-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r\n",
-      "\r",
-      "Validation DataLoader 0:  69%|████████████▍     | 11/16 [00:09<00:04,  1.12it/s]\u001b[A"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-665-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r\n",
-      "\r",
-      "Validation DataLoader 0:  75%|█████████████▌    | 12/16 [00:10<00:03,  1.13it/s]\u001b[A"
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-670-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r\n",
-      "\r",
-      "Validation DataLoader 0:  81%|██████████████▋   | 13/16 [00:12<00:02,  1.08it/s]\u001b[A"
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-675-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r\n",
-      "\r",
-      "Validation DataLoader 0:  88%|███████████████▊  | 14/16 [00:12<00:01,  1.09it/s]\u001b[A"
+      "-rw-r--r--  1 root root  525K Sep  1 14:30 shuffle-word-680-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r\n",
-      "\r",
-      "Validation DataLoader 0:  94%|████████████████▉ | 15/16 [00:14<00:00,  1.05it/s]\u001b[A"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-685-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r\n",
-      "\r",
-      "Validation DataLoader 0: 100%|██████████████████| 16/16 [00:15<00:00,  1.02it/s]\u001b[A"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-690-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\r",
-      "Epoch 0: 100%|█| 15423/15423 [13:17:02<00:00,  3.10s/it, v_num=ufwn, train/loss=\r\n",
-      "\r",
-      "                                                                                \u001b[A\r",
-      "Epoch 0: 100%|█| 15423/15423 [13:17:02<00:00,  3.10s/it, v_num=ufwn, train/loss="
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-695-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "`Trainer.fit` stopped: `max_epochs=1` reached.\r\n",
-      "\r",
-      "Epoch 0: 100%|█| 15423/15423 [13:17:15<00:00,  3.10s/it, v_num=ufwn, train/loss=\r\n"
+      "-rw-r--r--  1 root root   29K Sep  1 14:30 shuffle-word-70-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\u001b[34m\u001b[1mwandb\u001b[0m: Waiting for W&B process to finish... \u001b[32m(success).\u001b[0m\r\n"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-700-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\u001b[34m\u001b[1mwandb\u001b[0m: \r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m: Run history:\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m:              batchidx ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m:                 epoch ▁▁▁▁▁▁▁▁▁▁\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m:           global_rank ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m:          real_ctx_len ▄▄▇▅▇▂▆▃▄█▂▆▅▁▅▇▃▄▄█▄▅▄▄▃▄▂▅▅▇▃▇▂▃▅▆█▆▄▇\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m:               substep ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m:            train/loss █▅▆▄▄▁▃▃▃▂▂▂▁▂▂▂▃▁▁▁▁▁▁▁▂▁▁▁▁▂▁▂▁▁▁▂▁▁▁▁\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m:   trainer/global_step ▁▁▁▂▂▂▂▂▂▃▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m: trainer/learning_rate ███▇▇▇▇▇▇▆▆▆▆▆▆▅▅▅▅▅▄▄▄▄▄▄▃▃▃▃▃▂▂▂▂▂▂▁▁▁\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m:       validation/loss ▁\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m: \r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m: Run summary:\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m:              batchidx 15\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m:                 epoch 0\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m:           global_rank 0\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m:          real_ctx_len 4064\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m:               substep 120\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m:            train/loss 0.90625\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m:   trainer/global_step 481\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m: trainer/learning_rate 0.0001\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m:       validation/loss 0.21994\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m: \r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m: 🚀 View run \u001b[33mv5-L96-D1024-E0.1 - Mem-Tune ctx-4k (train-ctx=4k, deepspeed_stage_1)\u001b[0m at: \u001b[34m\u001b[4mhttps://wandb.ai/rwkv-x-dev/RWKV-X-Experiments/runs/bxjrufwn\u001b[0m\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m: ️⚡ View job at \u001b[34m\u001b[4mhttps://wandb.ai/rwkv-x-dev/RWKV-X-Experiments/jobs/QXJ0aWZhY3RDb2xsZWN0aW9uOjkzMjg5ODA3/version_details/v18\u001b[0m\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m: Synced 5 W&B file(s), 0 media file(s), 2 artifact file(s) and 0 other file(s)\r\n",
-      "\u001b[34m\u001b[1mwandb\u001b[0m: Find logs at: \u001b[35m\u001b[1m./wandb/run-20230901_160839-bxjrufwn/logs\u001b[0m\r\n"
+      "-rw-r--r--  1 root root  525K Sep  1 14:30 shuffle-word-705-count.jsonl\n"
      ]
-    }
-   ],
-   "source": [
-    "# Start the finetune model training\n",
-    "!cd \"{TRAINER_DIR}\" && \\\n",
-    "    export WANDB_MODE=\"{WANDB_MODE}\" && \\\n",
-    "    export RWKV_WAVENET_LAYERS=\"{RWKV_WAVENET_LAYERS}\" && \\\n",
-    "    python lightning_trainer.py fit \\\n",
-    "        -c \"{NOTEBOOK_DIR}/config-mem-template.yaml\" \\\n",
-    "        --trainer.logger.init_args.name=\"{WANDB_PREFIX} - Mem-Tune ctx-4k (train-ctx=4k, {DEEPSPEED_STRAT})\" \\\n",
-    "        --trainer.strategy=\"{DEEPSPEED_STRAT}\" \\\n",
-    "        --trainer.devices=\"{GPU_DEVICES}\"  \\\n",
-    "        --trainer.callbacks.init_args.dirpath=\"../checkpoint/{FILENAME_PREFIX}-mem-ctx-4k/\" \\\n",
-    "        --model.lr_init=3e-4 \\\n",
-    "        --model.lr_final=1e-4 \\\n",
-    "        --data.max_token_size=4096 \\\n",
-    "        --model.ctx_len=4096 \\\n",
-    "        --model.bptt_learning_range=1 \\\n",
-    "        --model.load_model=\"../model/{FILENAME_PREFIX}-mem-ctx-2k.pth\""
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 7,
-   "id": "4ebc92b6",
-   "metadata": {
-    "execution": {
-     "iopub.execute_input": "2023-09-02T05:34:48.729410Z",
-     "iopub.status.busy": "2023-09-02T05:34:48.729110Z",
-     "iopub.status.idle": "2023-09-02T05:35:07.143926Z",
-     "shell.execute_reply": "2023-09-02T05:35:07.142895Z"
-    },
-    "papermill": {
-     "duration": 19.505999,
-     "end_time": "2023-09-02T05:35:07.146520",
-     "exception": false,
-     "start_time": "2023-09-02T05:34:47.640521",
-     "status": "completed"
     },
-    "tags": []
-   },
-   "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Setting ds_accelerator to cuda (auto detect)\r\n"
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-710-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Processing zero checkpoint '../checkpoint/v5-L96-D1024-E0_1-mem-ctx-4k/last.ckpt/checkpoint'\r\n"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-715-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Detected checkpoint of type zero stage ZeroStageEnum.optimizer_states, world_size: 8\r\n"
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-720-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Parsing checkpoint created by deepspeed==0.9.3\r\n"
+      "-rw-r--r--  1 root root  525K Sep  1 14:30 shuffle-word-725-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Reconstructed fp32 state dict with 1926 params 1412678656 elements\r\n",
-      "Saving bf16 state dict to ../model/v5-L96-D1024-E0_1-mem-ctx-4k.pth\r\n"
+      "-rw-r--r--  1 root root  526K Sep  1 14:30 shuffle-word-730-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "-rw-r--r-- 1 root root 2.7G Sep  2 05:35 ../model/v5-L96-D1024-E0_1-mem-ctx-4k.pth\r\n"
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-735-count.jsonl\n"
      ]
-    }
-   ],
-   "source": [
-    "# Lets export the model from the checkpoint\n",
-    "!cd \"{TRAINER_DIR}\" && \\\n",
-    "    python export_checkpoint.py \\\n",
-    "        \"../checkpoint/{FILENAME_PREFIX}-mem-ctx-4k/last.ckpt\" \\\n",
-    "        \"../model/{FILENAME_PREFIX}-mem-ctx-4k.pth\" \"bf16\"\n",
-    "!cd \"{TRAINER_DIR}\" && ls -alh \"../model/{FILENAME_PREFIX}-mem-ctx-4k.pth\""
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 8,
-   "id": "e826cd2e",
-   "metadata": {
-    "execution": {
-     "iopub.execute_input": "2023-09-02T05:35:09.523367Z",
-     "iopub.status.busy": "2023-09-02T05:35:09.523046Z",
-     "iopub.status.idle": "2023-09-02T05:37:00.669467Z",
-     "shell.execute_reply": "2023-09-02T05:37:00.668072Z"
-    },
-    "papermill": {
-     "duration": 112.245098,
-     "end_time": "2023-09-02T05:37:00.671408",
-     "exception": false,
-     "start_time": "2023-09-02T05:35:08.426310",
-     "status": "completed"
     },
-    "tags": []
-   },
-   "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Setting ds_accelerator to cuda (auto detect)\r\n"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-740-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-745-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "###\r\n",
-      "### Model validation start ###\r\n",
-      "###\r\n"
+      "-rw-r--r--  1 root root   29K Sep  1 14:30 shuffle-word-75-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 5 tokens : 100.0% similarity, with 5 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-750-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 10 tokens : 100.0% similarity, with 10 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-755-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 15 tokens : 100.0% similarity, with 15 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-760-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 20 tokens : 100.0% similarity, with 20 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-765-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 25 tokens : 100.0% similarity, with 25 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  525K Sep  1 14:30 shuffle-word-770-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 30 tokens : 100.0% similarity, with 30 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-775-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 35 tokens : 100.0% similarity, with 35 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-780-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 40 tokens : 100.0% similarity, with 40 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  525K Sep  1 14:30 shuffle-word-785-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 45 tokens : 100.0% similarity, with 45 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-790-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 50 tokens : 100.0% similarity, with 50 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-795-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 55 tokens : 100.0% similarity, with 55 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root   31K Sep  1 14:30 shuffle-word-80-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 60 tokens : 100.0% similarity, with 60 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-800-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 65 tokens : 100.0% similarity, with 65 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-805-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 70 tokens : 100.0% similarity, with 70 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-810-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 75 tokens : 100.0% similarity, with 75 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-815-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 80 tokens : 98.75% similarity, with 79 matched token, and 1 token mismatch\r\n"
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-820-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 85 tokens : 100.0% similarity, with 85 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  525K Sep  1 14:30 shuffle-word-825-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 90 tokens : 100.0% similarity, with 90 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-830-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 95 tokens : 98.94736842105263% similarity, with 94 matched token, and 1 token mismatch\r\n"
+      "-rw-r--r--  1 root root  525K Sep  1 14:30 shuffle-word-835-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 100 tokens : 100.0% similarity, with 100 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-840-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 105 tokens : 100.0% similarity, with 105 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-845-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 110 tokens : 100.0% similarity, with 110 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root   29K Sep  1 14:30 shuffle-word-85-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 115 tokens : 100.0% similarity, with 115 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-850-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 120 tokens : 100.0% similarity, with 120 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  526K Sep  1 14:30 shuffle-word-855-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 125 tokens : 100.0% similarity, with 125 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  527K Sep  1 14:30 shuffle-word-860-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 130 tokens : 100.0% similarity, with 130 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-865-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 135 tokens : 99.25925925925925% similarity, with 134 matched token, and 1 token mismatch\r\n"
+      "-rw-r--r--  1 root root  526K Sep  1 14:30 shuffle-word-870-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 140 tokens : 100.0% similarity, with 140 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-875-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 145 tokens : 100.0% similarity, with 145 matched token, and 0 token mismatch\r\n"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-880-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 150 tokens : 99.33333333333333% similarity, with 149 matched token, and 1 token mismatch\r\n"
+      "-rw-r--r--  1 root root  517K Sep  1 14:30 shuffle-word-885-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 160 tokens : 99.375% similarity, with 159 matched token, and 1 token mismatch\r\n"
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-890-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 170 tokens : 99.41176470588235% similarity, with 169 matched token, and 1 token mismatch\r\n"
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-895-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 180 tokens : 98.88888888888889% similarity, with 178 matched token, and 2 token mismatch\r\n"
+      "-rw-r--r--  1 root root   31K Sep  1 14:30 shuffle-word-90-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 190 tokens : 99.47368421052632% similarity, with 189 matched token, and 1 token mismatch\r\n"
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-900-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 200 tokens : 99.5% similarity, with 199 matched token, and 1 token mismatch\r\n"
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-905-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 210 tokens : 99.52380952380952% similarity, with 209 matched token, and 1 token mismatch\r\n"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-910-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 220 tokens : 98.63636363636363% similarity, with 217 matched token, and 3 token mismatch\r\n"
+      "-rw-r--r--  1 root root  520K Sep  1 14:30 shuffle-word-915-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 230 tokens : 99.1304347826087% similarity, with 228 matched token, and 2 token mismatch\r\n"
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-920-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 240 tokens : 99.16666666666667% similarity, with 238 matched token, and 2 token mismatch\r\n"
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-925-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 250 tokens : 99.2% similarity, with 248 matched token, and 2 token mismatch\r\n"
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-930-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 260 tokens : 99.23076923076923% similarity, with 258 matched token, and 2 token mismatch\r\n"
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-935-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 270 tokens : 99.25925925925925% similarity, with 268 matched token, and 2 token mismatch\r\n"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-940-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 280 tokens : 98.92857142857143% similarity, with 277 matched token, and 3 token mismatch\r\n"
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-945-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 290 tokens : 98.62068965517241% similarity, with 286 matched token, and 4 token mismatch\r\n"
+      "-rw-r--r--  1 root root   30K Sep  1 14:30 shuffle-word-95-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 300 tokens : 99.0% similarity, with 297 matched token, and 3 token mismatch\r\n"
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-950-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 325 tokens : 98.46153846153847% similarity, with 320 matched token, and 5 token mismatch\r\n"
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-955-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 350 tokens : 98.57142857142858% similarity, with 345 matched token, and 5 token mismatch\r\n"
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-960-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 375 tokens : 98.4% similarity, with 369 matched token, and 6 token mismatch\r\n"
+      "-rw-r--r--  1 root root  523K Sep  1 14:30 shuffle-word-965-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 400 tokens : 98.75% similarity, with 395 matched token, and 5 token mismatch\r\n"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-970-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 425 tokens : 98.3529411764706% similarity, with 418 matched token, and 7 token mismatch\r\n"
+      "-rw-r--r--  1 root root  521K Sep  1 14:30 shuffle-word-975-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 450 tokens : 98.44444444444444% similarity, with 443 matched token, and 7 token mismatch\r\n"
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-980-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 475 tokens : 98.3157894736842% similarity, with 467 matched token, and 8 token mismatch\r\n"
+      "-rw-r--r--  1 root root  519K Sep  1 14:30 shuffle-word-985-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 500 tokens : 97.0% similarity, with 485 matched token, and 15 token mismatch\r\n"
+      "-rw-r--r--  1 root root  524K Sep  1 14:30 shuffle-word-990-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 525 tokens : 97.14285714285714% similarity, with 510 matched token, and 15 token mismatch\r\n"
+      "-rw-r--r--  1 root root  522K Sep  1 14:30 shuffle-word-995-count.jsonl\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 550 tokens : 96.36363636363636% similarity, with 530 matched token, and 20 token mismatch\r\n"
+      "-rw-r--r--  1 root root   13K Sep  1 14:30 word-2-count.jsonl\n"
      ]
+    }
+   ],
+   "source": [
+    "%%script bash\n",
+    "\n",
+    "########################################\n",
+    "# Generate the required jsonl dataset\n",
+    "########################################\n",
+    "\n",
+    "# Reset the dataset dir\n",
+    "mkdir -p ../dataset\n",
+    "rm -rf ../dataset/*.jsonl\n",
+    "\n",
+    "# Generate the various datasets\n",
+    "echo \"## Generating word reptition dataset ##\"\n",
+    "\n",
+    "#\n",
+    "# We reduce the training set for < 50 words - and shift the focus upwards\n",
+    "# (aka 50-100 token * 2 : ~100 - 250 token ctx len)\n",
+    "#\n",
+    "python ../memory_script/gen_limited_prompt_completion_jsonl.py ../dataset/word-2-count.jsonl 2 100 &\n",
+    "for i in {5..500..5} \n",
+    "do\n",
+    "    python ../memory_script/gen_limited_prompt_completion_jsonl.py ../dataset/gen-word-$i-count.jsonl $i 100 & \n",
+    "    python ../memory_script/shuffle_limited_prompt_completion_jsonl.py ../dataset/shuffle-word-$i-count.jsonl $i 1 & \n",
+    "done\n",
+    "\n",
+    "#\n",
+    "# Ramping up the 50+ - 2100 words dataset\n",
+    "# \n",
+    "for i in {505..4000..5} \n",
+    "do\n",
+    "    python ../memory_script/gen_limited_prompt_completion_jsonl.py ../dataset/gen-word-$i-count.jsonl $i 200 & \n",
+    "    python ../memory_script/shuffle_limited_prompt_completion_jsonl.py ../dataset/shuffle-word-$i-count.jsonl $i 20 & \n",
+    "done\n",
+    "\n",
+    "wait\n",
+    "echo \"## Done ##\"\n",
+    "\n",
+    "ls -alh ../dataset/"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "474827dd",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-09-01T14:30:50.819743Z",
+     "iopub.status.busy": "2023-09-01T14:30:50.819469Z",
+     "iopub.status.idle": "2023-09-01T14:31:05.238181Z",
+     "shell.execute_reply": "2023-09-01T14:31:05.237330Z"
+    },
+    "papermill": {
+     "duration": 14.585598,
+     "end_time": "2023-09-01T14:31:05.240111",
+     "exception": false,
+     "start_time": "2023-09-01T14:30:50.654513",
+     "status": "completed"
     },
+    "tags": []
+   },
+   "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 575 tokens : 96.52173913043478% similarity, with 555 matched token, and 20 token mismatch\r\n"
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 600 tokens : 96.33333333333334% similarity, with 578 matched token, and 22 token mismatch\r\n"
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 625 tokens : 96.48% similarity, with 603 matched token, and 22 token mismatch\r\n"
+      "/usr/local/lib/python3.11/dist-packages/lightning/pytorch/cli.py:484: UserWarning: LightningCLI's args parameter is intended to run from within Python like if it were from the command line. To prevent mistakes it is not recommended to provide both args and command line arguments, got: sys.argv[1:]=['fit', '-c', '/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/rwkv-x-exp/v5-memory/config-mem-template.yaml', '--trainer.logger.init_args.name=v5-L96-D1024-E0.1 - Mem-Tune ctx-4k (train-ctx=4k, deepspeed_stage_1)', '--trainer.strategy=deepspeed_stage_1', '--trainer.devices=auto', '--trainer.callbacks.init_args.dirpath=../checkpoint/v5-L96-D1024-E0_1-mem-ctx-4k/', '--model.lr_init=3e-4', '--model.lr_final=1e-4', '--data.max_token_size=4096', '--model.ctx_len=4096', '--model.bptt_learning_range=1', '--model.load_model=../model/v5-L96-D1024-E0_1-mem-ctx-1k.pth'], args=['fit', '-c', '/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/rwkv-x-exp/v5-memory/config-mem-template.yaml', '--trainer.logger.init_args.name=v5-L96-D1024-E0.1 - Mem-Tune ctx-4k (train-ctx=4k, deepspeed_stage_1)', '--trainer.strategy=deepspeed_stage_1', '--trainer.devices=auto', '--trainer.callbacks.init_args.dirpath=../checkpoint/v5-L96-D1024-E0_1-mem-ctx-4k/', '--model.lr_init=3e-4', '--model.lr_final=1e-4', '--data.max_token_size=4096', '--model.ctx_len=4096', '--model.bptt_learning_range=1', '--model.load_model=../model/v5-L96-D1024-E0_1-mem-ctx-1k.pth'].\r\n",
+      "  rank_zero_warn(\r\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 650 tokens : 96.46153846153847% similarity, with 627 matched token, and 23 token mismatch\r\n"
+      "/usr/local/lib/python3.11/dist-packages/lightning/fabric/utilities/seed.py:39: UserWarning: No seed found, seed set to 3786586298\r\n",
+      "  rank_zero_warn(f\"No seed found, seed set to {seed}\")\r\n",
+      "Global seed set to 3786586298\r\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 675 tokens : 96.5925925925926% similarity, with 652 matched token, and 23 token mismatch\r\n"
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Currently logged in as: \u001b[33mpicocreator\u001b[0m (\u001b[33mrwkv-x-dev\u001b[0m). Use \u001b[1m`wandb login --relogin`\u001b[0m to force relogin\r\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 700 tokens : 96.0% similarity, with 672 matched token, and 28 token mismatch\r\n"
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Tracking run with wandb version 0.15.9\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Run data is saved locally in \u001b[35m\u001b[1m./wandb/run-20230901_143056-3d0esoou\u001b[0m\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Run \u001b[1m`wandb offline`\u001b[0m to turn off syncing.\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Syncing run \u001b[33mv5-L96-D1024-E0.1 - Mem-Tune ctx-4k (train-ctx=4k, deepspeed_stage_1)\u001b[0m\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: ⭐️ View project at \u001b[34m\u001b[4mhttps://wandb.ai/rwkv-x-dev/RWKV-X-Experiments\u001b[0m\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: 🚀 View run at \u001b[34m\u001b[4mhttps://wandb.ai/rwkv-x-dev/RWKV-X-Experiments/runs/3d0esoou\u001b[0m\r\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 750 tokens : 96.66666666666667% similarity, with 725 matched token, and 25 token mismatch\r\n"
+      "Traceback (most recent call last):\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/RWKV-v5/lightning_trainer.py\", line 254, in <module>\r\n",
+      "    cli_main()\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/RWKV-v5/lightning_trainer.py\", line 233, in cli_main\r\n",
+      "    LightningCLI(\r\n",
+      "  File \"/usr/local/lib/python3.11/dist-packages/lightning/pytorch/cli.py\", line 350, in __init__\r\n",
+      "    self.instantiate_classes()\r\n",
+      "  File \"/usr/local/lib/python3.11/dist-packages/lightning/pytorch/cli.py\", line 499, in instantiate_classes\r\n",
+      "    self.config_init = self.parser.instantiate_classes(self.config)\r\n",
+      "                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/usr/local/lib/python3.11/dist-packages/jsonargparse/_deprecated.py\", line 139, in patched_instantiate_classes\r\n",
+      "    cfg = self._unpatched_instantiate_classes(cfg, **kwargs)\r\n",
+      "          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/usr/local/lib/python3.11/dist-packages/jsonargparse/_core.py\", line 1128, in instantiate_classes\r\n",
+      "    cfg[subcommand] = subparser.instantiate_classes(cfg[subcommand], instantiate_groups=instantiate_groups)\r\n",
+      "                      ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/usr/local/lib/python3.11/dist-packages/jsonargparse/_deprecated.py\", line 139, in patched_instantiate_classes\r\n",
+      "    cfg = self._unpatched_instantiate_classes(cfg, **kwargs)\r\n",
+      "          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/usr/local/lib/python3.11/dist-packages/jsonargparse/_core.py\", line 1122, in instantiate_classes\r\n",
+      "    component.instantiate_class(component, cfg)\r\n",
+      "  File \"/usr/local/lib/python3.11/dist-packages/jsonargparse/_signatures.py\", line 551, in group_instantiate_class\r\n",
+      "    parent[key] = group.group_class(**value)\r\n",
+      "                  ^^^^^^^^^^^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/RWKV-v5/src/model.py\", line 553, in __init__\r\n",
+      "    raise ValueError(f\"load_model file '{load_model}' does not exist\")\r\n",
+      "ValueError: load_model file '../model/v5-L96-D1024-E0_1-mem-ctx-1k.pth' does not exist\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Waiting for W&B process to finish... \u001b[31m(failed 1).\u001b[0m Press Control-C to abort syncing.\r\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 800 tokens : 96.375% similarity, with 771 matched token, and 29 token mismatch\r\n"
+      "\u001b[34m\u001b[1mwandb\u001b[0m: 🚀 View run \u001b[33mv5-L96-D1024-E0.1 - Mem-Tune ctx-4k (train-ctx=4k, deepspeed_stage_1)\u001b[0m at: \u001b[34m\u001b[4mhttps://wandb.ai/rwkv-x-dev/RWKV-X-Experiments/runs/3d0esoou\u001b[0m\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: ️⚡ View job at \u001b[34m\u001b[4mhttps://wandb.ai/rwkv-x-dev/RWKV-X-Experiments/jobs/QXJ0aWZhY3RDb2xsZWN0aW9uOjkzMjg5ODA3/version_details/v17\u001b[0m\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Synced 5 W&B file(s), 0 media file(s), 0 artifact file(s) and 0 other file(s)\r\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Find logs at: \u001b[35m\u001b[1m./wandb/run-20230901_143056-3d0esoou/logs\u001b[0m\r\n"
      ]
+    }
+   ],
+   "source": [
+    "# Start the finetune model training\n",
+    "!cd \"{TRAINER_DIR}\" && \\\n",
+    "    export WANDB_MODE=\"{WANDB_MODE}\" && \\\n",
+    "    export RWKV_WAVENET_LAYERS=\"{RWKV_WAVENET_LAYERS}\" && \\\n",
+    "    python lightning_trainer.py fit \\\n",
+    "        -c \"{NOTEBOOK_DIR}/config-mem-template.yaml\" \\\n",
+    "        --trainer.logger.init_args.name=\"{WANDB_PREFIX} - Mem-Tune ctx-4k (train-ctx=4k, {DEEPSPEED_STRAT})\" \\\n",
+    "        --trainer.strategy=\"{DEEPSPEED_STRAT}\" \\\n",
+    "        --trainer.devices=\"{GPU_DEVICES}\"  \\\n",
+    "        --trainer.callbacks.init_args.dirpath=\"../checkpoint/{FILENAME_PREFIX}-mem-ctx-4k/\" \\\n",
+    "        --model.lr_init=3e-4 \\\n",
+    "        --model.lr_final=1e-4 \\\n",
+    "        --data.max_token_size=4096 \\\n",
+    "        --model.ctx_len=4096 \\\n",
+    "        --model.bptt_learning_range=1 \\\n",
+    "        --model.load_model=\"../model/{FILENAME_PREFIX}-mem-ctx-1k.pth\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "96cc7f3a",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-09-01T14:31:05.578334Z",
+     "iopub.status.busy": "2023-09-01T14:31:05.578117Z",
+     "iopub.status.idle": "2023-09-01T14:31:08.323955Z",
+     "shell.execute_reply": "2023-09-01T14:31:08.322940Z"
+    },
+    "papermill": {
+     "duration": 2.916092,
+     "end_time": "2023-09-01T14:31:08.325688",
+     "exception": false,
+     "start_time": "2023-09-01T14:31:05.409596",
+     "status": "completed"
     },
+    "tags": []
+   },
+   "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 850 tokens : 96.35294117647058% similarity, with 819 matched token, and 31 token mismatch\r\n"
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 900 tokens : 96.33333333333334% similarity, with 867 matched token, and 33 token mismatch\r\n"
+      "Traceback (most recent call last):\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/RWKV-v5/export_checkpoint.py\", line 651, in <module>\r\n",
+      "    convert_zero_checkpoint_to_fp32_state_dict(args.checkpoint_dir, output_file, save_dtype=args.dtype)\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/RWKV-v5/export_checkpoint.py\", line 542, in convert_zero_checkpoint_to_fp32_state_dict\r\n",
+      "    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag)\r\n",
+      "                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/RWKV-v5/export_checkpoint.py\", line 516, in get_fp32_state_dict_from_zero_checkpoint\r\n",
+      "    raise ValueError(f\"Unable to find 'latest' file at {latest_path}\")\r\n",
+      "ValueError: Unable to find 'latest' file at ../checkpoint/v5-L96-D1024-E0_1-mem-ctx-4k/last.ckpt/latest\r\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 950 tokens : 96.94736842105263% similarity, with 921 matched token, and 29 token mismatch\r\n"
+      "ls: cannot access '../model/v5-L96-D1024-E0_1-mem-ctx-4k.pth': No such file or directory\r\n"
      ]
+    }
+   ],
+   "source": [
+    "# Lets export the model from the checkpoint\n",
+    "!cd \"{TRAINER_DIR}\" && \\\n",
+    "    python export_checkpoint.py \\\n",
+    "        \"../checkpoint/{FILENAME_PREFIX}-mem-ctx-4k/last.ckpt\" \\\n",
+    "        \"../model/{FILENAME_PREFIX}-mem-ctx-4k.pth\" \"bf16\"\n",
+    "!cd \"{TRAINER_DIR}\" && ls -alh \"../model/{FILENAME_PREFIX}-mem-ctx-4k.pth\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "id": "ead23fca",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2023-09-01T14:31:08.662516Z",
+     "iopub.status.busy": "2023-09-01T14:31:08.662320Z",
+     "iopub.status.idle": "2023-09-01T14:31:13.761964Z",
+     "shell.execute_reply": "2023-09-01T14:31:13.760772Z"
+    },
+    "papermill": {
+     "duration": 5.268905,
+     "end_time": "2023-09-01T14:31:13.763776",
+     "exception": false,
+     "start_time": "2023-09-01T14:31:08.494871",
+     "status": "completed"
     },
+    "tags": []
+   },
+   "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "## Model validation for 1000 tokens : 96.5% similarity, with 965 matched token, and 35 token mismatch\r\n"
+      "Setting ds_accelerator to cuda (auto detect)\r\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "###\r\n",
-      "### Model validation end ###\r\n",
-      "###\r\n"
+      "[RWKV.model] Running RWKV model using 'torch-jit' with torch '2.0.1+cu118'\r\n",
+      "Traceback (most recent call last):\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/rwkv-x-exp/v5-memory/../memory_script/eval_v5_memory_guided.py\", line 366, in <module>\r\n",
+      "    asyncio.run(main_function())\r\n",
+      "  File \"/usr/lib/python3.11/asyncio/runners.py\", line 190, in run\r\n",
+      "    return runner.run(main)\r\n",
+      "           ^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/usr/lib/python3.11/asyncio/runners.py\", line 118, in run\r\n",
+      "    return self._loop.run_until_complete(task)\r\n",
+      "           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/usr/lib/python3.11/asyncio/base_events.py\", line 653, in run_until_complete\r\n",
+      "    return future.result()\r\n",
+      "           ^^^^^^^^^^^^^^^\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/rwkv-x-exp/v5-memory/../memory_script/eval_v5_memory_guided.py\", line 58, in main_function\r\n",
+      "    model = SimpleRWKV(model_path, device=\"cuda\")\r\n",
+      "            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/RWKV-v5/src/model.py\", line 1378, in __init__\r\n",
+      "    self.model = RWKV(**model_config)\r\n",
+      "                 ^^^^^^^^^^^^^^^^^^^^\r\n",
+      "  File \"/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/RWKV-v5/src/model.py\", line 553, in __init__\r\n",
+      "    raise ValueError(f\"load_model file '{load_model}' does not exist\")\r\n",
+      "ValueError: load_model file '/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/model/v5-L96-D1024-E0_1-mem-ctx-4k.pth' does not exist\r\n"
      ]
     }
    ],
@@ -176344,14 +24930,14 @@
   },
   "papermill": {
    "default_parameters": {},
-   "duration": 48559.606036,
-   "end_time": "2023-09-02T05:37:02.159998",
+   "duration": 81.807338,
+   "end_time": "2023-09-01T14:31:14.206697",
    "environment_variables": {},
    "exception": null,
    "input_path": "/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/notebook/experiment/rwkv-x-exp/v5-memory/v5-L96-D1024-E1e-1-ctx4k-part4.ipynb",
    "output_path": "/actions-runner/_work/RWKV-infctx-trainer/RWKV-infctx-trainer/output/experiment/rwkv-x-exp/v5-memory/v5-L96-D1024-E1e-1-ctx4k-part4.ipynb",
    "parameters": {},
-   "start_time": "2023-09-01T16:07:42.553962",
+   "start_time": "2023-09-01T14:29:52.399359",
    "version": "2.4.0"
   }
  },